Size: a a a

2020 December 20

SK

Sergey Kaurov in Data Engineers
Если пропаду, то считайте меня коммунистом ⚒
источник

SK

Sergey Kaurov in Data Engineers
Nikita Blagodarnyy
Ресурс-менеджер - это такая компьютерная программа.
источник

SK

Sergey Kaurov in Data Engineers
http://*ResourceManager
источник

SK

Sergey Kaurov in Data Engineers
Я про него подумал, но у меня ничего такого нет..
источник

TM

Tilen Matjašec in Data Engineers
i'll try passing None
источник

A

Alexander in Data Engineers
Ребят, такой вопрос.
Мне нужно несколько обученных питоновских ML и DL моделей закинуть в продакшен чтобы генерировать предсказания. Сначала по запросу (типа  curl -X POST ...) а в будущем и в реальном времени. Одна модель написана используя Scikit-learn и ещё несколько на TensorFlow и PyTorch. В будущем планируется планируется также брать данные из HBase и Elasticsearch.
А теперь проблема. Боссы хотят что-бы все модели работали на Спарке и готовы предоставить только спарк-кластер для моих моделей.  Пытаюсь теперь понять как лучше это все задеплоить.
1) Первый вариант - это переписать ML модель с Scikit-learn на Spark ML. Что делать с DL правда не понятно. Нужно чтоб работало на GPUs. Нашёл несколько вариантов на гитхабе: elephas (https://github.com/maxpumperla/elephas), TensorFlowOnSpark (https://github.com/yahoo/TensorFlowOnSpark), BigDL (https://github.com/intel-analytics/BigDL) и Analytics Zoo (https://github.com/intel-analytics/analytics-zoo). Но они не поддерживают пока что Spark 3.  BigDL и Analytics Zoo ещё вдобавок не поддерживают вычисления на GPUs (в будущем планирует).
2) Второй вариант - это добавить PySpark к коду и добавить UDFs. Но пока я не понял можно ли весь код завернуть в них.
3)  У TensorFlow кажется появилась какая-то поддержка Спарка https://github.com/tensorflow/ecosystem/tree/master/spark.  Пока не пробовал, но выглядит очень сырым продуктом.
4) Ещё есть Koalas со своими dataframes на Спарке. Но пока я не вижу как она может пригодится.
5) Ещё слышал про форматы PMML, PFA и ONNX. Но не знаю на сколько это актуально.

Что посоветуете в моём случае?
источник

e

er@essbase.ru in Data Engineers
Alexander
Ребят, такой вопрос.
Мне нужно несколько обученных питоновских ML и DL моделей закинуть в продакшен чтобы генерировать предсказания. Сначала по запросу (типа  curl -X POST ...) а в будущем и в реальном времени. Одна модель написана используя Scikit-learn и ещё несколько на TensorFlow и PyTorch. В будущем планируется планируется также брать данные из HBase и Elasticsearch.
А теперь проблема. Боссы хотят что-бы все модели работали на Спарке и готовы предоставить только спарк-кластер для моих моделей.  Пытаюсь теперь понять как лучше это все задеплоить.
1) Первый вариант - это переписать ML модель с Scikit-learn на Spark ML. Что делать с DL правда не понятно. Нужно чтоб работало на GPUs. Нашёл несколько вариантов на гитхабе: elephas (https://github.com/maxpumperla/elephas), TensorFlowOnSpark (https://github.com/yahoo/TensorFlowOnSpark), BigDL (https://github.com/intel-analytics/BigDL) и Analytics Zoo (https://github.com/intel-analytics/analytics-zoo). Но они не поддерживают пока что Spark 3.  BigDL и Analytics Zoo ещё вдобавок не поддерживают вычисления на GPUs (в будущем планирует).
2) Второй вариант - это добавить PySpark к коду и добавить UDFs. Но пока я не понял можно ли весь код завернуть в них.
3)  У TensorFlow кажется появилась какая-то поддержка Спарка https://github.com/tensorflow/ecosystem/tree/master/spark.  Пока не пробовал, но выглядит очень сырым продуктом.
4) Ещё есть Koalas со своими dataframes на Спарке. Но пока я не вижу как она может пригодится.
5) Ещё слышал про форматы PMML, PFA и ONNX. Но не знаю на сколько это актуально.

Что посоветуете в моём случае?
Проверить ТЗ , если в условиях не было что должно работать на Спарке , договорится о том что эту работу вы закрываете и начинаете новый контракт. И его пишете с нуля на Спарке.
источник

e

er@essbase.ru in Data Engineers
Первый этап назови пилот с точностью прогноза с использованием правильных инструментов .. второй-  вывод на прод с использованием быстрых. Использование результатов с первого этапа как эталон для второго
источник

Д

Дмитрий in Data Engineers
Alexander
Ребят, такой вопрос.
Мне нужно несколько обученных питоновских ML и DL моделей закинуть в продакшен чтобы генерировать предсказания. Сначала по запросу (типа  curl -X POST ...) а в будущем и в реальном времени. Одна модель написана используя Scikit-learn и ещё несколько на TensorFlow и PyTorch. В будущем планируется планируется также брать данные из HBase и Elasticsearch.
А теперь проблема. Боссы хотят что-бы все модели работали на Спарке и готовы предоставить только спарк-кластер для моих моделей.  Пытаюсь теперь понять как лучше это все задеплоить.
1) Первый вариант - это переписать ML модель с Scikit-learn на Spark ML. Что делать с DL правда не понятно. Нужно чтоб работало на GPUs. Нашёл несколько вариантов на гитхабе: elephas (https://github.com/maxpumperla/elephas), TensorFlowOnSpark (https://github.com/yahoo/TensorFlowOnSpark), BigDL (https://github.com/intel-analytics/BigDL) и Analytics Zoo (https://github.com/intel-analytics/analytics-zoo). Но они не поддерживают пока что Spark 3.  BigDL и Analytics Zoo ещё вдобавок не поддерживают вычисления на GPUs (в будущем планирует).
2) Второй вариант - это добавить PySpark к коду и добавить UDFs. Но пока я не понял можно ли весь код завернуть в них.
3)  У TensorFlow кажется появилась какая-то поддержка Спарка https://github.com/tensorflow/ecosystem/tree/master/spark.  Пока не пробовал, но выглядит очень сырым продуктом.
4) Ещё есть Koalas со своими dataframes на Спарке. Но пока я не вижу как она может пригодится.
5) Ещё слышал про форматы PMML, PFA и ONNX. Но не знаю на сколько это актуально.

Что посоветуете в моём случае?
Пишешь на пайспарке, на все узлы кластера спарк ставишь необходимые библиотеки. Немного прийдется поизвращатся. Но работать будет. Можно даже расспаралелить обучение.
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
Либо можно завернуть в virtualenv и забрасывать его на спарк-кластер
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
Видел, у нас DS так делают периодически, тупо в зипку пакуют и пробрасывают
источник

NN

No Name in Data Engineers
Vladislav 👻 Shishkov
Либо можно завернуть в virtualenv и забрасывать его на спарк-кластер
+, удобна
источник

Д

Дмитрий in Data Engineers
Да, можно зипку сделать при спарк сабмит.
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
Только питон и еще пару специфичных либ закинуть надо на кластер
источник

DZ

Dmitry Zuev in Data Engineers
No Name
+, удобна
Если без бинарных зависимостей
источник

AS

Andrey Smirnov in Data Engineers
Alexander
Ребят, такой вопрос.
Мне нужно несколько обученных питоновских ML и DL моделей закинуть в продакшен чтобы генерировать предсказания. Сначала по запросу (типа  curl -X POST ...) а в будущем и в реальном времени. Одна модель написана используя Scikit-learn и ещё несколько на TensorFlow и PyTorch. В будущем планируется планируется также брать данные из HBase и Elasticsearch.
А теперь проблема. Боссы хотят что-бы все модели работали на Спарке и готовы предоставить только спарк-кластер для моих моделей.  Пытаюсь теперь понять как лучше это все задеплоить.
1) Первый вариант - это переписать ML модель с Scikit-learn на Spark ML. Что делать с DL правда не понятно. Нужно чтоб работало на GPUs. Нашёл несколько вариантов на гитхабе: elephas (https://github.com/maxpumperla/elephas), TensorFlowOnSpark (https://github.com/yahoo/TensorFlowOnSpark), BigDL (https://github.com/intel-analytics/BigDL) и Analytics Zoo (https://github.com/intel-analytics/analytics-zoo). Но они не поддерживают пока что Spark 3.  BigDL и Analytics Zoo ещё вдобавок не поддерживают вычисления на GPUs (в будущем планирует).
2) Второй вариант - это добавить PySpark к коду и добавить UDFs. Но пока я не понял можно ли весь код завернуть в них.
3)  У TensorFlow кажется появилась какая-то поддержка Спарка https://github.com/tensorflow/ecosystem/tree/master/spark.  Пока не пробовал, но выглядит очень сырым продуктом.
4) Ещё есть Koalas со своими dataframes на Спарке. Но пока я не вижу как она может пригодится.
5) Ещё слышал про форматы PMML, PFA и ONNX. Но не знаю на сколько это актуально.

Что посоветуете в моём случае?
Я использую вариант через udf
источник

SK

Sergey Kaurov in Data Engineers
Привет 👋
Я переключился на Faire Sheduler, а всё равно в спарке FIFO. Что не так?
источник

SK

Sergey Kaurov in Data Engineers
yarn перегружал после того как включил в yarn-site.xml данный режим.
источник

DT

Denis Tsvetkov in Data Engineers
это же разные планировщики
источник

DT

Denis Tsvetkov in Data Engineers
в ярне и спарке
источник