Телеграмм чат группы hadoopusers страница 1881

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1724 membersпожаловаться на группу

2019 December 10

A

Alexey in Data Engineers

Можно и так сказать) я именно такой вопрос и задал интервьюерам: "в какой задаче вашим дата инженерам требуется знание как ходить по дереву?"

Внятного ответа не получил от них, поэтому решил спросить)

Семен, привет!

Ровно на этот вопрос следующая книжка не ответит. Но там есть очень много интересных кейсов (War Stories) с толикой юмора про использование алгоритмов для решения реальных задач, рекомендую посмотреть:

The Algorithm Design Manual
by Steven S S. Skiena

источник

11:03пожаловаться #1

A

Aleksandr in Data Engineers

@salatiques самый простой способ это глянуть чем занимаются потоки на воркерах в данный момент

сидят они на jdbc, на генерации паркета, или может у вас там ещё что весёлое есть

кажется, нащупал аномалию - почему-то последняя таска в логах пишет

"Records Read": 5285440

при этом у остальных по 10-15к записей

источник

12:09пожаловаться #2

А

Алексей in Data Engineers

Привет, подскажите. Подключился через spark steaming 2.3 к kafka и пишу в hdfs в формате orc. Получается очень много мелких файлов. Как уменьшить их число? Можно как то буферизировать в спарке и писать пачками или только делать периодически coalesce orc файлам? Или может есть более верный вариант, чем писать в hdfs?

источник

15:19пожаловаться #3

AZ

Anton Zadorozhniy in Data Engineers

Привет, подскажите. Подключился через spark steaming 2.3 к kafka и пишу в hdfs в формате orc. Получается очень много мелких файлов. Как уменьшить их число? Можно как то буферизировать в спарке и писать пачками или только делать периодически coalesce orc файлам? Или может есть более верный вариант, чем писать в hdfs?

если вы будете буферизовать на спарке то это наверное не очень хорошо скажется на отказоуйстойчивости; каноничными являются два способа: 1) приземлять из кафки не спарком а нормальный приземлятором который делает большие красивые файлы и 2) писать спарком маленькие и потом их укрупнять когда условная партиция закрыта, хотя бы alter table concatenate

источник

15:29пожаловаться #4

AZ

Anton Zadorozhniy in Data Engineers

если у вас в спарке есть логика, а не просто приземление из кафки, то для первого сценария ваш спарковый джоб должен писать в другой топик, и его уже приземлять

источник

15:30пожаловаться #5

S

Stanislav in Data Engineers

Anton Zadorozhniy

если вы будете буферизовать на спарке то это наверное не очень хорошо скажется на отказоуйстойчивости; каноничными являются два способа: 1) приземлять из кафки не спарком а нормальный приземлятором который делает большие красивые файлы и 2) писать спарком маленькие и потом их укрупнять когда условная партиция закрыта, хотя бы alter table concatenate

а что за нормальные приземляторы?

источник

15:30пожаловаться #6

AZ

Anton Zadorozhniy in Data Engineers

а что за нормальные приземляторы?

что-то вроде kafka connect, ну или то что под конкретные требования написано

источник

15:31пожаловаться #7

А

Алексей in Data Engineers

Я пока пробую делать concatenate, но когда идёт операция в стриме можно словить ошибку записи. Запись перезапустится или можно объединять только закрытые данные?

источник

15:32пожаловаться #8

S

Stanislav in Data Engineers

Anton Zadorozhniy

что-то вроде kafka connect, ну или то что под конкретные требования написано

ну вот, а я размечтался
пока что либрдкафка наше все

источник

15:33пожаловаться #9

S

Stanislav in Data Engineers

Я пока пробую делать concatenate, но когда идёт операция в стриме можно словить ошибку записи. Запись перезапустится или можно объединять только закрытые данные?

комить офсет после записи

источник

15:33пожаловаться #10

AZ

Anton Zadorozhniy in Data Engineers

Я пока пробую делать concatenate, но когда идёт операция в стриме можно словить ошибку записи. Запись перезапустится или можно объединять только закрытые данные?

лучше объединять закрытые

источник

15:33пожаловаться #11

AZ

Anton Zadorozhniy in Data Engineers

ну вот, а я размечтался
пока что либрдкафка наше все

это просто библиотека же

источник

15:36пожаловаться #12

А

Алексей in Data Engineers

А что если писать не на диск, а в бд с более мелким размером блока (hbase?)? Или так не делают?

источник

15:36пожаловаться #13

AZ

Anton Zadorozhniy in Data Engineers

А что если писать не на диск, а в бд с более мелким размером блока (hbase?)? Или так не делают?

это тоже самое что писать в кафку, вы можете коммитить мелкими порциями

источник

15:37пожаловаться #14

S

Stanislav in Data Engineers

Anton Zadorozhniy

это просто библиотека же

про то и речь :(

источник

15:39пожаловаться #15

S

Stanislav in Data Engineers

А что если писать не на диск, а в бд с более мелким размером блока (hbase?)? Или так не делают?

почему не читать не потоком, а батчами?

источник

15:40пожаловаться #16

S

Stanislav in Data Engineers

дождитесь пока накопится данных на размер блока

источник

15:40пожаловаться #17

S

Stanislav in Data Engineers

спарк - не про лейтанси

источник

15:40пожаловаться #18

А

Алексей in Data Engineers

ForeachBatch? Он не с 2.4?

источник

15:40пожаловаться #19

S

Stanislav in Data Engineers

ForeachBatch? Он не с 2.4?

нет, просто стартофсет и эндофсет
их хранить в хдфс, комитить при успешной записи

источник

15:41пожаловаться #20