с обычными-то эвристиками расписывать приходится, как матчинг в каждом конкретном кейсе происходит, а уж если чёрный ящик типа нейронки, там фиг что докажешь
ну локальные расписывальщики обсудили, они применимы безотносительно что в функции predict происходит, и еще тебе нарисуют красивые графики и интерактивные апплеты где ты можешь спросить как будут меняться предсказания
вопрос о том что SME на дистанции сможет работать лучше чем модели вроде давно решили (не сможет), но мб у вас улучшения от нормальных моделей не окупают их обучение, это другой вопрос, так часто бывает
так что появился проект — написали на питоне, потестили, проверили, доказали, а потом переписали на жабе и вытащили кучку настроек, которые можно тюнить для следующего проекта, если в нём те же параметры, но датасет другой
можно проложить абстракцию (условно назвать ее фичестор) и кормить обучение и сервинг из нее, а готовить данные для фичастора уже индивидуально в каждом случае
@dartov я извеняюсь конечно, но что-то подзапутался jupyterhub-yarnspawner я ставлю на всех нодах? proxy user я так же настраиваю на всех нодах. а саму настройку(jupyterhub_config.py) произвожу на одной неймноде? потом надо готовлю Packaging a Conda Environment with Conda-Pack и кладу его уже в hdfs