Size: a a a

2019 December 18

K

KrivdaTheTriewe in Data Engineers
Grigory Pomadchin
Что-то пропустил слегка я новости поповоду EMR 6.0: https://aws.amazon.com/about-aws/whats-new/2019/11/amazon-emr-6-beta-2-adds-hive-3-with-llap-support-scala-212-with-spark-244/

Похоже даже амазон дропает скоро 2.11 наконец (не дожидаясь релиза Спарка 3).
Llap непонятно зачем
источник

K

KrivdaTheTriewe in Data Engineers
Терь
источник

AL

Artem Likhomanenko in Data Engineers
Artem Likhomanenko
Запускаю oozie job. Job повисает на  map дойдя до 95% в логах пишет Heart beat постоянно. По ресурсам, из 19Гб памяти используется 16 по виртуальным процессорам из 16 используется 2. Куда ещё можно посмотреть?
снова я )Выяснил следующее,запускаются же две map операции одна которая от самого узи, вторая уже то что я ему сказал запускать, в данном случае MapReduceIndexerTool. по ощущениям проблема в настройках ресурсов, видимо.  Так как провел эксперимент. когда запускаю через узи задачу и потом пытаюсь запустить руками задачу через cli hadoop jar то пока не грохну задачу узи то задача из cli будет висеть в ожидании. В том же самом состоянии что и вторая операция в map у узи. Всего памяти 18Гб. Первая map забирает 9 - т.е. по идее должно хватать на вторую. vCPU так же достаточно. Что еще можно посмотреть в настройках YARN\OOZIE?
источник

A4

Anon 43 in Data Engineers
связь  между  JavaPairRDD  и  JavaRDD  посредством
кортежа.
а какая у них связь? Чето не нахожу
источник

AL

Artem Likhomanenko in Data Engineers
Artem Likhomanenko
снова я )Выяснил следующее,запускаются же две map операции одна которая от самого узи, вторая уже то что я ему сказал запускать, в данном случае MapReduceIndexerTool. по ощущениям проблема в настройках ресурсов, видимо.  Так как провел эксперимент. когда запускаю через узи задачу и потом пытаюсь запустить руками задачу через cli hadoop jar то пока не грохну задачу узи то задача из cli будет висеть в ожидании. В том же самом состоянии что и вторая операция в map у узи. Всего памяти 18Гб. Первая map забирает 9 - т.е. по идее должно хватать на вторую. vCPU так же достаточно. Что еще можно посмотреть в настройках YARN\OOZIE?
неверные выводы. если бы нехватало памяти то ярн бы грохнул контейнер( значит какая то друга конкуренция, хз за что...
источник

R

Roman in Data Engineers
Коллеги, а кто - нибудь видел испошьзования llap(hive llap) в проде? И какие были кейсы?
источник

R

Roman in Data Engineers
В попытках потыкать его и покурив долго интернеты, я прихожу к выводу, что это высер. Но, возможно, высер это я и делаю что - то не то
источник

S

Stanislav in Data Engineers
Roman
Коллеги, а кто - нибудь видел испошьзования llap(hive llap) в проде? И какие были кейсы?
когда много одновременных запросов к одинаковым данным
источник

S

Stanislav in Data Engineers
как у любого кеша
источник

R

Roman in Data Engineers
А получалось увидеть реальное кеширование метаданных orc файлов в llap?
источник

S

Stanislav in Data Engineers
а вот на больших выборках с ним время было хуже, чем без него
источник

R

Roman in Data Engineers
Stanislav
а вот на больших выборках с ним время было хуже, чем без него
Я как раз и тестировал на больших выборках. И не мог понять, почему выигрыша никакого нет.
источник

S

Stanislav in Data Engineers
Roman
А получалось увидеть реальное кеширование метаданных orc файлов в llap?
Да. Неплохо было, когда таблица была слишком партиционированна что выливалось в сотни мелких тысяч файлов
Но после приведения ее в норму, ллап стал обузой
источник

S

Stanislav in Data Engineers
ну и теперь, с объединением, у ллап нет шансов в будущем, у клаудеры есть импала
источник

AZ

Anton Zadorozhniy in Data Engineers
у них обоих стало сильно мало шансов после появления presto foundation под крылом у linux foundation
источник

A4

Anon 43 in Data Engineers
javaPairRDD и Tuple, в чем разница?
источник

A4

Anon 43 in Data Engineers
типа тапл это один кортеж, а javaPairRDD это множество тапл?
источник

S

Stanislav in Data Engineers
Anton Zadorozhniy
у них обоих стало сильно мало шансов после появления presto foundation под крылом у linux foundation
а были ли они вообще живые кроме проталкивания импалы
престо против хайва
а есть свежие бенчи? по старым вроде примерно то на то
источник

AZ

Anton Zadorozhniy in Data Engineers
Stanislav
а были ли они вообще живые кроме проталкивания импалы
престо против хайва
а есть свежие бенчи? по старым вроде примерно то на то
полно бенчей, поэтому престо так прет с июля (ну и плюс то что в объединенной клаудере все плохо)
источник

Е

Евгений in Data Engineers
k8s operator
источник