Size: a a a

2021 March 22

K

KrivdaTheTriewe in Data Engineers
Pavel Klemenkov
Батлили на эту тему с @asm0dey в Moscow Spark. Если коротко, моя позиция, что RDD достаточно простой и компактный, чтобы показать архитектуру и работу с партишенерами
Я подтверждаю , плюс по рдд пейпер есть
источник

K

KrivdaTheTriewe in Data Engineers
Anton Zadorozhniy
Да, много где люди живут без оконных функций, материализуют срезы, не знают своего счастья
Можно редьюс бай ки написать
источник

AZ

Anton Zadorozhniy in Data Engineers
Алексей
в этом видно разницу, откуда человек в датаинженерию зашел: из etl разработчика или java
Скорее с чем приходилось сталкиваться на предыдущих местах, те джависты кто активно с аналитическими базами работали - конечно знают про оконные функции, скоро 20 лет как они в стандарте (и какое-то время жили в достандартных реализациях)
источник

AZ

Anton Zadorozhniy in Data Engineers
KrivdaTheTriewe
Можно редьюс бай ки написать
Точн
источник

ЕГ

Евгений Глотов... in Data Engineers
Алексей
в этом видно разницу, откуда человек в датаинженерию зашел: из etl разработчика или java
Мы из аналитиков нанимаем)
SQL+python хватит всем)
источник

N

Nikita Blagodarnyy in Data Engineers
KrivdaTheTriewe
Можно редьюс бай ки написать
я читал пару лет назад самописный групбай/каунт на жабе. плакал.
источник

NN

No Name in Data Engineers
KrivdaTheTriewe
Я подтверждаю , плюс по рдд пейпер есть
Пейпер?
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Blagodarnyy
я читал пару лет назад самописный групбай/каунт на жабе. плакал.
А я пытал этим на собесах в 2012, все кому досталось - простите
источник

K

KrivdaTheTriewe in Data Engineers
No Name
Пейпер?
Ну рдд фундпментальная структура данных , в пейпере она описана и показано , как именно ее свойства приводят к тому , что она эффективна при обработке данных
источник

NN

No Name in Data Engineers
KrivdaTheTriewe
Ну рдд фундпментальная структура данных , в пейпере она описана и показано , как именно ее свойства приводят к тому , что она эффективна при обработке данных
Я просто не могу понять, что такое пейпер
источник

AZ

Anton Zadorozhniy in Data Engineers
No Name
Я просто не могу понять, что такое пейпер
Whitepaper, публикация
источник

AZ

Anton Zadorozhniy in Data Engineers
источник

NN

No Name in Data Engineers
Благодарю
источник

РП

Роман Пашкевич... in Data Engineers
Nail
За 20 лет ни разу не пришлось выбрать самую последнюю по дате строчку?)) Звучит как фантастика
+

В последнее время только это и приходится делать.
источник

РП

Роман Пашкевич... in Data Engineers
Кстати, никто не сравнивал?  Что быстрее, distinct on или оконка через row_number\rank?
источник

ЕГ

Евгений Глотов... in Data Engineers
Не очень корректно сравнивать, дистинкт он выбирает что попало, а ранк позволяет выбрать точно)
источник

AZ

Anton Zadorozhniy in Data Engineers
Роман Пашкевич
Кстати, никто не сравнивал?  Что быстрее, distinct on или оконка через row_number\rank?
кмк она шустрее работает в обычной ПГ, и помедленнее оконки в грипнламе, но с "лидерами рынка" сравнить трудно так как это нестандартный SQL
источник

РП

Роман Пашкевич... in Data Engineers
Ну вот у нас тут 2 лагеря. Одни за distinct on в гринпламе, вторые привыкли и фигачат везде row_number\rank))
источник

ПБ

Повелитель Бури... in Data Engineers
Pavel
мне на пошлой работе аналитики дали 10Тб гзипнутых архивов с csv, и говорят: ну, через спарк прогони, быстро же ёпт))
И ? В чем соль?
источник

DT

Dmitry Titov in Data Engineers
Странно, что почти нигде нет такой штуки как LIMIT n,m BY key1, key2 тк она кажется достаточно естественной
источник