Ребят, а кто нить может подсказать, как в спарке в бэкграунде подсчитать статистику по количеству строк в записанном рдд?
Хоть вопрос и неоднозначный, вариантов немного:
1. Самый простой, прямолинейный и в тоже время затратный - обратиться к записанным файлам и подсчитать количество записей методом .count . Преимущества - будет совершенно точно известно, сколько записей действительно сохранено. Недостатки - если записи дописываются к уже существующим, надо их отфильтровать, в некоторых случая это нереализуемо; требуются вычислительные ресурсы; для запуска "в бэкграунде" (асинхронно/конкурентно) нужно делать thread/future/что умеете, а пользы от асинхронности может не быть никакой, потому что задание уже завершено
2. Аккумуляторы. Преимущества: значение доступно сразу после окончания обработки, можно сказать, что посчитано "в бекграунде"; для количества и суммы аккумуляторы подходят хорошо. Недостатки: документация говорит, что в аккумуляторах, при правильной реализации, соблюдается принцип exactly once, но иногда встречается информация, что это не так. Скорее всего, надо брать AccumulatorV2 и не делать кривых реализаций