Телеграмм чат группы hadoopusers страница 1768

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1724 membersпожаловаться на группу

2019 November 14

DM

David Manukian in Data Engineers

@anton_shelin Хорошо, спасибо. На самом деле то что я хочу сделать я делал с Apache Beam на джаве, сейчас хочу попробовать сделать со spark structured streaming на скале

источник

12:35пожаловаться #1

DM

David Manukian in Data Engineers

@anton_shelin вот пример есть как с апаче бимом, но тут используется конфлюент схема реджистри https://github.com/AzimoLabs/kafka-to-avro-writer

AzimoLabs/kafka-to-avro-writer

Kafka to Avro Writer based on Apache Beam. It's a generic solution that reads data from multiple kafka topics and stores it on in cloud storage in Avro format. - AzimoLabs/kafka-to-avro-writer

источник

12:36пожаловаться #2

AS

Anton Shelin in Data Engineers

@anton_shelin вот пример есть как с апаче бимом, но тут используется конфлюент схема реджистри https://github.com/AzimoLabs/kafka-to-avro-writer

AzimoLabs/kafka-to-avro-writer

Kafka to Avro Writer based on Apache Beam. It's a generic solution that reads data from multiple kafka topics and stores it on in cloud storage in Avro format. - AzimoLabs/kafka-to-avro-writer

кстати нашел Hortonworks Schema Registry provides an Confluent Schema Registry compatibility endpoint at [baseurl]/api/v1/confluent

источник

12:40пожаловаться #3

DM

David Manukian in Data Engineers

@anton_shelin да, там 1 запрос общий есть, getByID, но он кривой)

источник

12:40пожаловаться #4

AS

Anton Shelin in Data Engineers

@anton_shelin да, там 1 запрос общий есть, getByID, но он кривой)

ясно. а почему нельзя просто заюзать например NiFi?

источник

12:41пожаловаться #5

DM

David Manukian in Data Engineers

@anton_shelin дело в том, когда продюсить через хорнтоновску, он айди в пейлод сетит такой, что его при десериализации уже не сможешь использовать для апи getByID конфлюентского

источник

12:42пожаловаться #6

DM

David Manukian in Data Engineers

@anton_shelin ты имеешь ввиду стрим сделать в Nifi?

источник

12:42пожаловаться #7

AS

Anton Shelin in Data Engineers

@anton_shelin ты имеешь ввиду стрим сделать в Nifi?

ну да NIFi берет из кафки авру или что там и кладет его в хранилище. я просо не знаю какая задача

источник

12:43пожаловаться #8

DM

David Manukian in Data Engineers

@anton_shelin вообще я так скажу что весь этот стрим и есть сейчас в Nifi паплайне) просто я для себя пытаюсь стрим сделать в spark structured streaming что бы подтянуть знания)

источник

12:44пожаловаться #9

AS

Anton Shelin in Data Engineers

@anton_shelin вообще я так скажу что весь этот стрим и есть сейчас в Nifi паплайне) просто я для себя пытаюсь стрим сделать в spark structured streaming что бы подтянуть знания)

ок

источник

12:44пожаловаться #10

DM

David Manukian in Data Engineers

@anton_shelin в любом случае, спасибо за помощь. Nifi это хорошо и просто, но не все кейсы стриминга nifi сможет поддержать, поэтому потихоньку переключаюсь на spark

источник

12:46пожаловаться #11

AS

Anton Shelin in Data Engineers

@anton_shelin в любом случае, спасибо за помощь. Nifi это хорошо и просто, но не все кейсы стриминга nifi сможет поддержать, поэтому потихоньку переключаюсь на spark

да мне тоже NiFi Не подошел из за его ориентированности на raw файлы. слишком медленно и сложно. некоторые задачи невозможно описать. streamsets в этом случае проще и удобнее. но мне кажется spark и NiFi сравнивать некорректно. NiFI и Streamsets это больше для перекладывания данных из одних хранилищь в другие типа ETL задачи. а спарк стриминг это для аналитики

источник

12:47пожаловаться #12

AS

Anton Shelin in Data Engineers

streamsets имею в виду SDC

источник

12:48пожаловаться #13

AS

Anton Shelin in Data Engineers

Спарк может читать с одного топика кафки и писать результаты в другой топик а оттуда уже ETL тула берет и рассылает алерты или складывает в хранилище и т.п. это конечно имхо

источник

12:50пожаловаться #14

2019 November 15

OP

O. Petr in Data Engineers

Как можно функциями спарка вычленить из подобного датафрейма сессии с ограничением по времени(пусть будет минута) и длину этой сессии
--------------------------------
-|ts|id|diff_prev_ts|-
--------------------------------
1|..|1..| 10 sec |-
2|..|1..| 20 sec |-
3|..|1..| 10 sec |-
4|..|1..| 20 sec |- тут сессия закончилась
5|..|1..| 180 sec |-
6|..|1..| 10 sec |-
--------------------------------
Сам поиск сесси представляется простым, аля фильтр >60 сек по дифам, но вот как найти дополнительно сумму этих дифов еще не совсем представляю. Ну и id в дф разные.
Как из крайнего случая чет свое писать итерируясь и запоминая состояния в чем то.

источник

13:02пожаловаться #15

ME

Max Efremov in Data Engineers

оконная функция тут не поможет?

источник

13:03пожаловаться #16

OP

O. Petr in Data Engineers

а как , ну diff_prev_ts и предпологается им вычислить

источник

13:04пожаловаться #17

ME

Max Efremov in Data Engineers

Хм, мне такую задачку на собесе задавали, кстати 🤔

источник

13:04пожаловаться #18

OP

O. Petr in Data Engineers

Кастомные UDWF не писал, но это реально через них же сделать ?

источник

13:07пожаловаться #19

ME

Max Efremov in Data Engineers

Этот датафрейм с временем уже есть, так?

источник

13:07пожаловаться #20