Size: a a a

2020 September 01

GP

Grigory Pomadchin in Data Engineers
посмотри от чего спарк 3 зависит?
источник

GP

Grigory Pomadchin in Data Engineers
я не помню
источник

UD

Uncel Duk in Data Engineers
Да чекну попозже, идея была подложить ему жарники хайва
источник

GP

Grigory Pomadchin in Data Engineers
Uncel Duk
Т.е я думаю на какую-то говнину в зависимостей дистрибутива
Трифт может быть
источник

UD

Uncel Duk in Data Engineers
Grigory Pomadchin
Трифт может быть
Типа spark.sql.hive.metastore.jars  и spark.sql.hive.metastore.version
источник

UD

Uncel Duk in Data Engineers
Как вариант выбить ногой дверь, попробую втащить актуальный второй хайв
источник

GT

Gennady Timofeev in Data Engineers
Uncel Duk
Там просто все, хочется именно третий спарк на старье
попробуйте —conf spark.sql.metastore.jars=maven 🌝
источник

UD

Uncel Duk in Data Engineers
Gennady Timofeev
попробуйте —conf spark.sql.metastore.jars=maven 🌝
Слишком просто
источник

UD

Uncel Duk in Data Engineers
Там инета нет :)
источник

A

Alex in Data Engineers
Можно указать путь локальный :)
источник

GP

Grigory Pomadchin in Data Engineers
источник

A

Alex in Data Engineers
Или собрать uberjar, закинуть на hdfs, указать в списке addfiles
источник

A

Alex in Data Engineers
После локализации будет доступен :)
источник

GP

Grigory Pomadchin in Data Engineers
Alex
Или собрать uberjar, закинуть на hdfs, указать в списке addfiles
ну да разделить класспасы и нужные депенси в жирный жарник сунуть
источник

GP

Grigory Pomadchin in Data Engineers
как вариант
источник

ИК

Иван Калининский... in Data Engineers
Mironiken
Ребят, а кто нить может подсказать, как в спарке в бэкграунде подсчитать статистику по количеству строк в записанном рдд?
Хоть вопрос и неоднозначный, вариантов немного:
1. Самый простой, прямолинейный и в тоже время затратный - обратиться к записанным файлам и подсчитать количество записей методом .count . Преимущества - будет совершенно точно известно, сколько записей действительно сохранено. Недостатки - если записи дописываются к уже существующим, надо их отфильтровать, в некоторых случая это нереализуемо; требуются вычислительные ресурсы; для запуска "в бэкграунде" (асинхронно/конкурентно) нужно делать thread/future/что умеете, а пользы от асинхронности может не быть никакой, потому что задание уже завершено

2. Аккумуляторы.  Преимущества: значение доступно сразу после окончания обработки, можно сказать, что посчитано "в бекграунде"; для количества и суммы аккумуляторы подходят хорошо. Недостатки: документация говорит, что в аккумуляторах, при правильной реализации, соблюдается принцип exactly once, но иногда встречается информация, что это не так. Скорее всего, надо брать AccumulatorV2 и не делать кривых реализаций
источник

M

Mironiken in Data Engineers
Иван Калининский
Хоть вопрос и неоднозначный, вариантов немного:
1. Самый простой, прямолинейный и в тоже время затратный - обратиться к записанным файлам и подсчитать количество записей методом .count . Преимущества - будет совершенно точно известно, сколько записей действительно сохранено. Недостатки - если записи дописываются к уже существующим, надо их отфильтровать, в некоторых случая это нереализуемо; требуются вычислительные ресурсы; для запуска "в бэкграунде" (асинхронно/конкурентно) нужно делать thread/future/что умеете, а пользы от асинхронности может не быть никакой, потому что задание уже завершено

2. Аккумуляторы.  Преимущества: значение доступно сразу после окончания обработки, можно сказать, что посчитано "в бекграунде"; для количества и суммы аккумуляторы подходят хорошо. Недостатки: документация говорит, что в аккумуляторах, при правильной реализации, соблюдается принцип exactly once, но иногда встречается информация, что это не так. Скорее всего, надо брать AccumulatorV2 и не делать кривых реализаций
Спасибо за обстоятельный ответ
источник

AS

Andrey Smirnov in Data Engineers
Иван Калининский
Хоть вопрос и неоднозначный, вариантов немного:
1. Самый простой, прямолинейный и в тоже время затратный - обратиться к записанным файлам и подсчитать количество записей методом .count . Преимущества - будет совершенно точно известно, сколько записей действительно сохранено. Недостатки - если записи дописываются к уже существующим, надо их отфильтровать, в некоторых случая это нереализуемо; требуются вычислительные ресурсы; для запуска "в бэкграунде" (асинхронно/конкурентно) нужно делать thread/future/что умеете, а пользы от асинхронности может не быть никакой, потому что задание уже завершено

2. Аккумуляторы.  Преимущества: значение доступно сразу после окончания обработки, можно сказать, что посчитано "в бекграунде"; для количества и суммы аккумуляторы подходят хорошо. Недостатки: документация говорит, что в аккумуляторах, при правильной реализации, соблюдается принцип exactly once, но иногда встречается информация, что это не так. Скорее всего, надо брать AccumulatorV2 и не делать кривых реализаций
в случае action это так, в случае если применяются в трансформациях, то это не гарантируется
For accumulator updates performed inside actions only, Spark guarantees that each task’s update to the accumulator will only be applied once, i.e. restarted tasks will not update the value. In transformations, users should be aware of that each task’s update may be applied more than once if tasks or job stages are re-executed.
источник

ИК

Иван Калининский... in Data Engineers
Andrey Smirnov
в случае action это так, в случае если применяются в трансформациях, то это не гарантируется
For accumulator updates performed inside actions only, Spark guarantees that each task’s update to the accumulator will only be applied once, i.e. restarted tasks will not update the value. In transformations, users should be aware of that each task’s update may be applied more than once if tasks or job stages are re-executed.
Получается, надо применять исключительно на RDD/Dataset, содержащих только Action. Правильно понимаю? Очевидного способа, чтобы аккумулятор использовался только в конкретном Action, я в API не увидел.
Или, если статистика не изменится от нескольких проходов, например, минимальное или максимальное значение поля, то можно и на трансформации применять
источник

SS

Sergey Sheremeta in Data Engineers
коллеги, подскажите как можно перепроцессить поток данных из HDFS-каталога для spark structured streaming?
источник