Телеграмм чат группы hadoopusers страница 2700

Хоть вопрос и неоднозначный, вариантов немного:
1. Самый простой, прямолинейный и в тоже время затратный - обратиться к записанным файлам и подсчитать количество записей методом .count . Преимущества - будет совершенно точно известно, сколько записей действительно сохранено. Недостатки - если записи дописываются к уже существующим, надо их отфильтровать, в некоторых случая это нереализуемо; требуются вычислительные ресурсы; для запуска "в бэкграунде" (асинхронно/конкурентно) нужно делать thread/future/что умеете, а пользы от асинхронности может не быть никакой, потому что задание уже завершено

2. Аккумуляторы. Преимущества: значение доступно сразу после окончания обработки, можно сказать, что посчитано "в бекграунде"; для количества и суммы аккумуляторы подходят хорошо. Недостатки: документация говорит, что в аккумуляторах, при правильной реализации, соблюдается принцип exactly once, но иногда встречается информация, что это не так. Скорее всего, надо брать AccumulatorV2 и не делать кривых реализаций

источник

18:10пожаловаться #16

M

Mironiken in Data Engineers

Иван Калининский

Хоть вопрос и неоднозначный, вариантов немного:
1. Самый простой, прямолинейный и в тоже время затратный - обратиться к записанным файлам и подсчитать количество записей методом .count . Преимущества - будет совершенно точно известно, сколько записей действительно сохранено. Недостатки - если записи дописываются к уже существующим, надо их отфильтровать, в некоторых случая это нереализуемо; требуются вычислительные ресурсы; для запуска "в бэкграунде" (асинхронно/конкурентно) нужно делать thread/future/что умеете, а пользы от асинхронности может не быть никакой, потому что задание уже завершено

2. Аккумуляторы. Преимущества: значение доступно сразу после окончания обработки, можно сказать, что посчитано "в бекграунде"; для количества и суммы аккумуляторы подходят хорошо. Недостатки: документация говорит, что в аккумуляторах, при правильной реализации, соблюдается принцип exactly once, но иногда встречается информация, что это не так. Скорее всего, надо брать AccumulatorV2 и не делать кривых реализаций

Спасибо за обстоятельный ответ

источник

18:11пожаловаться #17

AS

Andrey Smirnov in Data Engineers

Иван Калининский

Хоть вопрос и неоднозначный, вариантов немного:
1. Самый простой, прямолинейный и в тоже время затратный - обратиться к записанным файлам и подсчитать количество записей методом .count . Преимущества - будет совершенно точно известно, сколько записей действительно сохранено. Недостатки - если записи дописываются к уже существующим, надо их отфильтровать, в некоторых случая это нереализуемо; требуются вычислительные ресурсы; для запуска "в бэкграунде" (асинхронно/конкурентно) нужно делать thread/future/что умеете, а пользы от асинхронности может не быть никакой, потому что задание уже завершено

2. Аккумуляторы. Преимущества: значение доступно сразу после окончания обработки, можно сказать, что посчитано "в бекграунде"; для количества и суммы аккумуляторы подходят хорошо. Недостатки: документация говорит, что в аккумуляторах, при правильной реализации, соблюдается принцип exactly once, но иногда встречается информация, что это не так. Скорее всего, надо брать AccumulatorV2 и не делать кривых реализаций

в случае action это так, в случае если применяются в трансформациях, то это не гарантируется
For accumulator updates performed inside actions only, Spark guarantees that each task’s update to the accumulator will only be applied once, i.e. restarted tasks will not update the value. In transformations, users should be aware of that each task’s update may be applied more than once if tasks or job stages are re-executed.

источник

18:17пожаловаться #18

ИК

Иван Калининский... in Data Engineers

Andrey Smirnov

в случае action это так, в случае если применяются в трансформациях, то это не гарантируется
For accumulator updates performed inside actions only, Spark guarantees that each task’s update to the accumulator will only be applied once, i.e. restarted tasks will not update the value. In transformations, users should be aware of that each task’s update may be applied more than once if tasks or job stages are re-executed.

Получается, надо применять исключительно на RDD/Dataset, содержащих только Action. Правильно понимаю? Очевидного способа, чтобы аккумулятор использовался только в конкретном Action, я в API не увидел.
Или, если статистика не изменится от нескольких проходов, например, минимальное или максимальное значение поля, то можно и на трансформации применять

источник

22:22пожаловаться #19

SS

Sergey Sheremeta in Data Engineers

коллеги, подскажите как можно перепроцессить поток данных из HDFS-каталога для spark structured streaming?

источник

22:30пожаловаться #20