Size: a a a

2020 July 27

AE

Alexey Evdokimov in Data Engineers
ну логично. если нормальную субд заменять на игрушечную, результат будет грустный
источник

СХ

Старый Хрыч... in Data Engineers
и у мтс таже история, как они заменили 20 ядер оракла на 10 серверов с п и написали  40 сервисов, а ещё 20 ядер оралкла осталось
источник

AE

Alexey Evdokimov in Data Engineers
ещё бы не правда. был у меня оракле дба с дипломами в конторе. и смотрел я, как он запросы переписывает, так это какая-то злоебучая unholy magic. чё я писал на наивном sql, и чё в итоге у него было на диалекте. в тыщи раз быстрее запросы работали на терабайтовой базе
источник

VS

Vasily Shabanov in Data Engineers
Старый Хрыч
и у мтс таже история, как они заменили 20 ядер оракла на 10 серверов с п и написали  40 сервисов, а ещё 20 ядер оралкла осталось
чего на сколько и сколько осталось?
источник

АЖ

Андрей Жуков... in Data Engineers
Alexey Evdokimov
ещё бы не правда. был у меня оракле дба с дипломами в конторе. и смотрел я, как он запросы переписывает, так это какая-то злоебучая unholy magic. чё я писал на наивном sql, и чё в итоге у него было на диалекте. в тыщи раз быстрее запросы работали на терабайтовой базе
ну это классика
источник

СХ

Старый Хрыч... in Data Engineers
Vasily Shabanov
чего на сколько и сколько осталось?
ну про объёмы они  там не писали, но они на половин сервис с орала перевели на пг, но для этого пришлось поставить 10 серверов с пг, и ещё написать 40 сервисов
источник

Ж

Жмака in Data Engineers
Всем привет. Нужно переписать спарк с питона 2 на скалу и засунуть в эйрфлоу для запуска на aws emr, но часть кода это ML модели с pandas, xgboost и другой сатанинской атрибутикой. Как бы вы создали пайплайн? Запустить сатанинство на отдельном ec2, потому что там single-node pandas? Другие идеи?
источник

ME

Max Efremov in Data Engineers
у амазона есть сервис ноутбуков, мб там можно?
источник

R

Renarde in Data Engineers
Жмака
Всем привет. Нужно переписать спарк с питона 2 на скалу и засунуть в эйрфлоу для запуска на aws emr, но часть кода это ML модели с pandas, xgboost и другой сатанинской атрибутикой. Как бы вы создали пайплайн? Запустить сатанинство на отдельном ec2, потому что там single-node pandas? Другие идеи?
# sales-mode: on
взять Databricks вместо EMR, переехать на Koalas + PyArrow для моделей
# sales-mode: off
источник

Ж

Жмака in Data Engineers
Renarde
# sales-mode: on
взять Databricks вместо EMR, переехать на Koalas + PyArrow для моделей
# sales-mode: off
Коалас не хотят (главный архитектор не хочет). Может есть еще вариант?
источник

АЖ

Андрей Жуков... in Data Engineers
Renarde
# sales-mode: on
взять Databricks вместо EMR, переехать на Koalas + PyArrow для моделей
# sales-mode: off
А koalas не занимается в датабриксе той же порнографиец,  что и в опенсорсе?
источник

Ж

Жмака in Data Engineers
Max Efremov
у амазона есть сервис ноутбуков, мб там можно?
Не хотят платить за доп сервис кроме уже используемых
источник

АЖ

Андрей Жуков... in Data Engineers
Там же никакой магии нет,  все равно все на драйвер свалится
источник

Ж

Жмака in Data Engineers
Просто все на драйвере будет работать а все кор ноды простаивать будут. Много денег. EMR запускается с десятками коров до нескольких сотен
источник

R

Renarde in Data Engineers
Жмака
Коалас не хотят (главный архитектор не хочет). Может есть еще вариант?
переубедить архитектора!

кроме шуток, если ETL на Scala Spark, можно модели сериализнуть в какой-нибудь ONNX (в зависимости от того что за формат), либо сервить их как HTTP-service, либо написать отдельную тонкую spark-streaming джобу на питоне, которая будет получать поток из event queue и возвращать скоринг обратно
источник

R

Renarde in Data Engineers
Андрей Жуков
А koalas не занимается в датабриксе той же порнографиец,  что и в опенсорсе?
о чем именно идет речь? Никогда не использовал OSS версию, честно говоря
источник

АЖ

Андрей Жуков... in Data Engineers
Renarde
о чем именно идет речь? Никогда не использовал OSS версию, честно говоря
toPandas на каждом шаге
источник

АЖ

Андрей Жуков... in Data Engineers
И для модели коалас вообще ничего не даёт,  по сути
источник

Ж

Жмака in Data Engineers
Renarde
переубедить архитектора!

кроме шуток, если ETL на Scala Spark, можно модели сериализнуть в какой-нибудь ONNX (в зависимости от того что за формат), либо сервить их как HTTP-service, либо написать отдельную тонкую spark-streaming джобу на питоне, которая будет получать поток из event queue и возвращать скоринг обратно
Пока вряд ли получится плюс датабрикс не вариант. Все подвязано на амазон
источник

R

Renarde in Data Engineers
Жмака
Пока вряд ли получится плюс датабрикс не вариант. Все подвязано на амазон
*спойлер - мы есть и на Amazon 🙂

ну описанную идею можно на любом спарке провернуть
источник