Всем привет) Тут как раз про spark 3.0.1и стриминг. Накину на вентилятор, так сказать)
Пытаюсь настроить батч процессинг (хочу выполнять джобу каждый час) из кафки с помощью spark 3.0.1 в соответствии с этой статьёй:
https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.htmlИз топика инфа выгружается, всё отлично (пока просто сделал count() записей). Как я понимаю, после этого в offset должна была добавиться информация, какую часть записей я прочитал и выдать мне только "свежие". Однако, по умолчанию в startingOffsets стоит earliest и на latest его не поменять. Поэтому, при повторном запуске мне снова выдаются все записи. Подскажите, пожалуйста, что я делаю не так и можно ли это вообще реализовать..