Size: a a a

2019 November 14

DM

David Manukian in Data Engineers
@anton_shelin Хорошо, спасибо. На самом деле то что я хочу сделать я делал с Apache Beam на джаве, сейчас хочу попробовать сделать со spark structured streaming на скале
источник

DM

David Manukian in Data Engineers
@anton_shelin вот пример есть как с апаче бимом, но тут используется конфлюент схема реджистри https://github.com/AzimoLabs/kafka-to-avro-writer
источник

AS

Anton Shelin in Data Engineers
кстати нашел Hortonworks Schema Registry provides an Confluent Schema Registry compatibility endpoint at [baseurl]/api/v1/confluent
источник

DM

David Manukian in Data Engineers
@anton_shelin  да, там 1 запрос общий есть, getByID, но он кривой)
источник

AS

Anton Shelin in Data Engineers
David Manukian
@anton_shelin  да, там 1 запрос общий есть, getByID, но он кривой)
ясно. а почему нельзя просто заюзать например NiFi?
источник

DM

David Manukian in Data Engineers
@anton_shelin дело в том, когда продюсить через хорнтоновску, он айди в пейлод сетит такой, что его при десериализации уже не сможешь использовать для апи getByID конфлюентского
источник

DM

David Manukian in Data Engineers
@anton_shelin ты имеешь ввиду стрим сделать в Nifi?
источник

AS

Anton Shelin in Data Engineers
David Manukian
@anton_shelin ты имеешь ввиду стрим сделать в Nifi?
ну да NIFi берет из кафки авру или что там и кладет его в хранилище. я просо не знаю какая задача
источник

DM

David Manukian in Data Engineers
@anton_shelin вообще я так скажу что весь этот стрим и есть сейчас в Nifi паплайне) просто я для себя пытаюсь стрим сделать в spark structured streaming что бы подтянуть знания)
источник

AS

Anton Shelin in Data Engineers
David Manukian
@anton_shelin вообще я так скажу что весь этот стрим и есть сейчас в Nifi паплайне) просто я для себя пытаюсь стрим сделать в spark structured streaming что бы подтянуть знания)
ок
источник

DM

David Manukian in Data Engineers
@anton_shelin в любом случае, спасибо за помощь. Nifi это хорошо и просто, но не все кейсы стриминга nifi сможет поддержать, поэтому потихоньку переключаюсь на spark
источник

AS

Anton Shelin in Data Engineers
David Manukian
@anton_shelin в любом случае, спасибо за помощь. Nifi это хорошо и просто, но не все кейсы стриминга nifi сможет поддержать, поэтому потихоньку переключаюсь на spark
да мне тоже NiFi Не подошел из за его ориентированности на raw файлы. слишком медленно и сложно. некоторые задачи невозможно описать. streamsets в этом случае проще и удобнее. но мне кажется spark и NiFi сравнивать некорректно. NiFI и Streamsets это больше для перекладывания данных из одних хранилищь в другие типа ETL задачи. а спарк стриминг это для аналитики
источник

AS

Anton Shelin in Data Engineers
streamsets имею в виду SDC
источник

AS

Anton Shelin in Data Engineers
Спарк может читать с одного топика кафки и писать результаты в другой топик а оттуда уже ETL тула берет и рассылает алерты или складывает в хранилище и т.п. это конечно имхо
источник
2019 November 15

OP

O. Petr in Data Engineers
Как можно функциями спарка вычленить из подобного датафрейма сессии с ограничением по времени(пусть будет минута) и длину этой сессии
--------------------------------
-|ts|id|diff_prev_ts|-
--------------------------------
1|..|1..| 10 sec        |-
2|..|1..| 20 sec        |-
3|..|1..| 10 sec        |-
4|..|1..| 20 sec        |-  тут сессия закончилась
5|..|1..| 180 sec      |-
6|..|1..| 10 sec        |-
--------------------------------
Сам поиск сесси представляется простым, аля фильтр >60 сек по дифам, но вот как найти дополнительно сумму этих дифов еще не совсем представляю. Ну и id в дф разные.
Как из крайнего случая чет свое писать итерируясь и запоминая состояния в чем то.
источник

ME

Max Efremov in Data Engineers
оконная функция тут не поможет?
источник

OP

O. Petr in Data Engineers
а как , ну diff_prev_ts и предпологается им вычислить
источник

ME

Max Efremov in Data Engineers
Хм, мне такую задачку на собесе задавали, кстати 🤔
источник

OP

O. Petr in Data Engineers
Кастомные UDWF не писал, но это реально через них же сделать ?
источник

ME

Max Efremov in Data Engineers
Этот датафрейм с временем уже есть, так?
источник