Size: a a a

2020 October 21

AZ

Anton Zadorozhniy in Data Engineers
ну дизайн на поверхности короче
источник

AZ

Anton Zadorozhniy in Data Engineers
я два года назад делал такое но под кубер и писать в S3
источник

AZ

Anton Zadorozhniy in Data Engineers
Андрей Жуков
А Azkaban не наследник ли gobblin?
не знаю
источник

AZ

Anton Zadorozhniy in Data Engineers
Надо спросить кстати, контора для которой я писал это под облако обещала выложить в опенсорс
источник
2020 October 22

GP

Grigory Pomadchin in Data Engineers
Дорогие Скаланы! Специально для ру сообщества выпросила скидку на Scale By The Bay, с промокодом SUPPORT билеты стоят 30$, регистрируйтесь! https://www.eventbrite.com/e/scale-by-the-bay-tickets-119978213065
источник

GP

Grigory Pomadchin in Data Engineers
‼️Самое важное в Data Engineers Group‼️
🔹 Дорогие Скаланы! (И не только скаланы, дорогие инженеры!) // Специально для ру сообщества выпросили скидку на Scale By The Bay, с промокодом SUPPORT билеты стоят 30$, регистрируйтесь! https://www.eventbrite.com/e/scale-by-the-bay-tickets-119978213065

🔹 Из особенно важных для нас спикеров: Matei Zaharia(!), Prashant Sharma (CODAIT, the IBM OSS center), David Talby (the CTO of John Snow Labs, with present the Spark NLP library)
источник

C

Combot in Data Engineers
ghyun 5 has been banned! Reason: CAS ban.
источник

RS

Rinat Sharipov in Data Engineers
не знаю насколько в тему группы, но возможно кто то сталкивался

подскажите пожалуйста, по каким причинам может умирать ядро и как это можно продебажить ?


The kernel appears to have died

контекст - у меня есть pkl модель, которая десериализуется в обычную python ф-ю, на вход которой передается pandas.DataFrame

при вызове модели ядро помирает и ничего кроме этого в консоль не пишется

как понять, в чем проблема ?
источник

SS

Sergey Sheremeta in Data Engineers
Rinat Sharipov
не знаю насколько в тему группы, но возможно кто то сталкивался

подскажите пожалуйста, по каким причинам может умирать ядро и как это можно продебажить ?


The kernel appears to have died

контекст - у меня есть pkl модель, которая десериализуется в обычную python ф-ю, на вход которой передается pandas.DataFrame

при вызове модели ядро помирает и ничего кроме этого в консоль не пишется

как понять, в чем проблема ?
рискну предположить, что речь идет про Kernel внутри Jupyter Labs, а не в Linux?
если да, то смотрите логи Жупитера и операционки
источник

RS

Rinat Sharipov in Data Engineers
Sergey Sheremeta
рискну предположить, что речь идет про Kernel внутри Jupyter Labs, а не в Linux?
если да, то смотрите логи Жупитера и операционки
Сергей, да, логи Jupyter погляжу, но если просто запустить скрипт через python, то Kernel тоже дохнет
источник

SS

Sergey Sheremeta in Data Engineers
Rinat Sharipov
Сергей, да, логи Jupyter погляжу, но если просто запустить скрипт через python, то Kernel тоже дохнет
покажите консольную команду, которой "запускаете скрипт через python"
источник

RS

Rinat Sharipov in Data Engineers
Sergey Sheremeta
покажите консольную команду, которой "запускаете скрипт через python"
python test.py


Segmentation fault
источник

RS

Rinat Sharipov in Data Engineers
внутри такой простой скрипт


import pandas as pd
import mlflow

if __name__ == "__main__":
   urls = ["http://bla.ru/1"]

   mlflow.set_tracking_uri("http://localhost:8000")
   model = mlflow.pyfunc.load_model("models:/rinat-model-2/22")

   model.predict(pd.DataFrame({"0": pd.Series([urls])}))
источник

RS

Rinat Sharipov in Data Engineers
при этом аналогичный код работает в spark, сейчас подозреваю, что там может быть как то памяти python у больше выдано на процесс, но если у кого то есть идеи, буду оч. благодарен
источник

MT

Mikhail T in Data Engineers
Наверняка стоит проверить с какой верисей python и mlflow модель сериализовали в pkl и сравнить с теми, что используются сейчас
источник

АЖ

Андрей Жуков... in Data Engineers
можно просто версию пикла проверить
источник

RS

Rinat Sharipov in Data Engineers
версии одинаковые, я проверил, интересно, что из spark на том же venv окружении все поднимается и работает корректно
источник

DY

Dan Y in Data Engineers
если вам приходилось делать валидацию данных на кассандре/сцилле (после переноса или рестора из бекапов), как именно вы это делали? У меня есть несколько идей, которые выльются в код, когда время позволит, но хотелось бы услышать об опыте реальных пользователей. Сканировать все данные конено же не реально, брать хеши от файлов бд тоже (там все может укатиться из-за компактов)
источник

GP

Grigory Pomadchin in Data Engineers
Dan Y
если вам приходилось делать валидацию данных на кассандре/сцилле (после переноса или рестора из бекапов), как именно вы это делали? У меня есть несколько идей, которые выльются в код, когда время позволит, но хотелось бы услышать об опыте реальных пользователей. Сканировать все данные конено же не реально, брать хеши от файлов бд тоже (там все может укатиться из-за компактов)
я мету сравнивал табличек которые можно травесрить полностью и схему и численные характеристики дата таблиц - типа схему сравнить, каунт, местоиспользуемое таблицой
источник

GP

Grigory Pomadchin in Data Engineers
так то да дороговато целиком все выдергивать и проходиться по всем строкам
источник