Телеграмм чат группы hadoopusers страница 3447

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2377 membersпожаловаться на группу

2021 March 29

Y

Ya Anna in Data Engineers

Что то на татарском

источник

10:54пожаловаться #1

SS

Sergey Sheremeta in Data Engineers

дяденьки, здравствуйте!
помогите понять как происходит одновременный вызов ограниченного batchSize'ом кол-ва запросов в этом куске кода :
это какая-то шибко сложная для меня магическая магия ((

object ThreadedConcurrentContext {
  import scala.util._
  import scala.concurrent._
  import scala.concurrent.duration.Duration
  import scala.concurrent.duration.Duration._
  import scala.concurrent.ExecutionContext.Implicits.global

  /** Wraps a code block in a Future and returns the future */
  def executeAsync[T](f: => T): Future[T] = {
    Future(f)(ec)
  }

  /** Awaits only a set of elements at a time. Instead of waiting for the entire batch
    * to finish waits only for the head element before requesting the next future*/
  def awaitSliding[T](it: Iterator[Future[T]], batchSize: Int = 3, timeout: Duration = Inf): Iterator[T] = {
    val slidingIterator = it.sliding(batchSize - 1).withPartial(true) //Our look ahead (hasNext) will auto start the nth future in the batch
    val (initIterator, tailIterator) = slidingIterator.span(_ => slidingIterator.hasNext)
    initIterator.map( futureBatch => Await.result(futureBatch.head, timeout)) ++
      tailIterator.flatMap( lastBatch => Await.result(Future.sequence(lastBatch), timeout))
  }
}

источник

11:47пожаловаться #2

SS

Sergey Sheremeta in Data Engineers

источник

11:48пожаловаться #3

MY

Maxim Yastremsky in Data Engineers

Закопать его

А почему pentaho надо закапывать? Не вписывается в современный стек?

источник

11:58пожаловаться #4

P

Pavel in Data Engineers

Maxim Yastremsky

А почему pentaho надо закапывать? Не вписывается в современный стек?

Есть более стандартные и трендовые инструменты

источник

12:09пожаловаться #5

MY

Maxim Yastremsky in Data Engineers

у меня на горизонте маячит задача "рассмотреть альтернативы Oracle data integrator". Т.е. почти полностью накуренный ETL на RDBMS. Что сейчас стоит смотреть?

источник

12:15пожаловаться #6

AZ

Anton Zadorozhniy in Data Engineers

Maxim Yastremsky

у меня на горизонте маячит задача "рассмотреть альтернативы Oracle data integrator". Т.е. почти полностью накуренный ETL на RDBMS. Что сейчас стоит смотреть?

А чем ODI не устраивает?

источник

12:15пожаловаться #7

MY

Maxim Yastremsky in Data Engineers

там по факту вообще стоит Warehouse Builder. Вот с него надо переехать. Предположительно на ODI. Но т.к. все равно много боли не избежать - хотелось попутно рассмотреть варианты. Может дешевле/универсальнее получится.

источник

12:21пожаловаться #8

AS

Andrey Smirnov in Data Engineers

Sergey Sheremeta

тут магия что следующий батч будет запущен после того как завершится первый таск из предыдущего батча, ты про это?

источник

12:23пожаловаться #9

MY

Maxim Yastremsky in Data Engineers

например, если будет удобная заливка в/из Hive в том же инструменте

источник

12:23пожаловаться #10

EK

Evgenii Kuznetcov in Data Engineers

Sergey Sheremeta

дяденьки, здравствуйте!
помогите понять как происходит одновременный вызов ограниченного batchSize'ом кол-ва запросов в этом куске кода :
это какая-то шибко сложная для меня магическая магия ((

object ThreadedConcurrentContext {
  import scala.util._
  import scala.concurrent._
  import scala.concurrent.duration.Duration
  import scala.concurrent.duration.Duration._
  import scala.concurrent.ExecutionContext.Implicits.global

  /** Wraps a code block in a Future and returns the future */
  def executeAsync[T](f: => T): Future[T] = {
    Future(f)(ec)
  }

  /** Awaits only a set of elements at a time. Instead of waiting for the entire batch
    * to finish waits only for the head element before requesting the next future*/
  def awaitSliding[T](it: Iterator[Future[T]], batchSize: Int = 3, timeout: Duration = Inf): Iterator[T] = {
    val slidingIterator = it.sliding(batchSize - 1).withPartial(true) //Our look ahead (hasNext) will auto start the nth future in the batch
    val (initIterator, tailIterator) = slidingIterator.span(_ => slidingIterator.hasNext)
    initIterator.map( futureBatch => Await.result(futureBatch.head, timeout)) ++
      tailIterator.flatMap( lastBatch => Await.result(Future.sequence(lastBatch), timeout))
  }
}

Тоже не могу понять, что происходит, хотя сам писал подобные вещи.
Это библиотечный код, который надо понять, или свой код, который можно переписать?

источник

12:24пожаловаться #11

SS

Sergey Sheremeta in Data Engineers

Evgenii Kuznetcov

Тоже не могу понять, что происходит, хотя сам писал подобные вещи.
Это библиотечный код, который надо понять, или свой код, который можно переписать?

это отсюда - Concurrency-In-Spark. наверное, можно считать библиотечным кодом

источник

12:25пожаловаться #12

SS

Sergey Sheremeta in Data Engineers

тут магия что следующий батч будет запущен после того как завершится первый таск из предыдущего батча, ты про это?

да я в целом картину не ухватываю. не могу ментальную модель происходящего построить

источник

12:26пожаловаться #13

SS

Sergey Sheremeta in Data Engineers

было бы здорово (и полагаю, полезно многим) - если бы кто-то умный объяснил на пальцах "чо-как вощще"

источник

12:27пожаловаться #14

SS

Sergey Sheremeta in Data Engineers

или это уже пресловутые "монады в Скале", которые не нужны дата-инженерам?

источник

12:28пожаловаться #15

AS

Andrey Smirnov in Data Engineers

Sergey Sheremeta

или это уже пресловутые "монады в Скале", которые не нужны дата-инженерам?

нет тут монад, обыкновенные итераторы

источник

12:30пожаловаться #16

ИК

Иван Калининский... in Data Engineers

нет тут монад, обыкновенные итераторы

Iterator[_] считается монадой?

источник

12:31пожаловаться #17

EK

Evgenii Kuznetcov in Data Engineers

Sergey Sheremeta

это отсюда - Concurrency-In-Spark. наверное, можно считать библиотечным кодом

Окей, я понял, что происходит

источник

12:31пожаловаться #18

AS

Andrey Smirnov in Data Engineers

Иван Калининский

Iterator[_] считается монадой?

а Future[_]?

источник

12:31пожаловаться #19

ИК

Иван Калининский... in Data Engineers

а Future[_]?

кто бы объяснил!

источник

12:32пожаловаться #20