Size: a a a

2020 September 24

R

Renarde in Data Engineers
"Завтра ищешь в интернете книжку Dive into python..."
источник

R

Renarde in Data Engineers
источник

VM

Victor Mikhaylov in Data Engineers
Своя сборка
источник

R

Renarde in Data Engineers
Ali Abdullaev
Я смотрел, но там обсуждение курсов, а нужен интенсив на неделю-две
кроме шуток, мне кажется что люди начисто перестали пользоваться возможностями pet-project.

Вот идея - реализуйте чтение стрима изменений на википедии с задержкой не более 2 минут.
Данные сложите в s3-like систему, для стриминга - spark structured streaming, стрим написать на Scala.
Далее реализуйте следующий стрим, который читает данные из s3-like хранилки,  и отправляет текст в rapid API для определения positive/negative intent. После определения интентов, запишите count-статистику в ClickHouse и настройте витринку поверх (скажем, на SuperSet) для визуалиации результатов.
источник

R

Renarde in Data Engineers
за 1-2 недели интенсивного стековерфлоу и курения мануалов вполне можно успеть
источник

AA

Ali Abdullaev in Data Engineers
Renarde
кроме шуток, мне кажется что люди начисто перестали пользоваться возможностями pet-project.

Вот идея - реализуйте чтение стрима изменений на википедии с задержкой не более 2 минут.
Данные сложите в s3-like систему, для стриминга - spark structured streaming, стрим написать на Scala.
Далее реализуйте следующий стрим, который читает данные из s3-like хранилки,  и отправляет текст в rapid API для определения positive/negative intent. После определения интентов, запишите count-статистику в ClickHouse и настройте витринку поверх (скажем, на SuperSet) для визуалиации результатов.
Это да, согласен, работающий вариант, но у компании есть ресурсы и желание быстро обучить людей, курсы для европейской части России им не подходят (сильно другой часовой пояс)
источник

AE

Alexey Evdokimov in Data Engineers
Victor Mikhaylov
Своя сборка
то есть спарк ванильный?
источник

VM

Victor Mikhaylov in Data Engineers
Да
источник

VM

Victor Mikhaylov in Data Engineers
Я точно не знаю :)
Я предполагаю, что это дистр., который я с коллегами собирал, а там спарк ванильный
источник

AE

Alexey Evdokimov in Data Engineers
дока какая-то бестолковая, даже версии библиотек не указаны
источник

AS

Andrey Smirnov in Data Engineers
Victor Mikhaylov
Своя сборка
они вроде допиливали apache bigtop или концепция поменялась?
источник

AE

Alexey Evdokimov in Data Engineers
вот какой именно там спарк, ваще непонятно :/
источник

VM

Victor Mikhaylov in Data Engineers
Andrey Smirnov
они вроде допиливали apache bigtop или концепция поменялась?
Да, мы допиливали BigTop 🙂
источник

VM

Victor Mikhaylov in Data Engineers
Концепция осталась та же, только мы стали повышать версии быстрее бигтопа
Так что теперь там должен быть 3 спарк
источник

AE

Alexey Evdokimov in Data Engineers
ок. ну ладно, будем считать что в россии теперь есть ещё один клауд
источник

P

Pavel in Data Engineers
Очень много сбера в один день
источник

N

Nikita Blagodarnyy in Data Engineers
Сбердуп же, давно объявляли
источник

N

Nikita Blagodarnyy in Data Engineers
потом стало SDP
источник

N

Nikita Blagodarnyy in Data Engineers
я правда так и не нашел где скачать без регистрации и смс
источник

VM

Victor Mikhaylov in Data Engineers
спарк ванильный, чего его скачивать? 🙂
источник