Size: a a a

2020 October 29

AZ

Anton Zadorozhniy in Data Engineers
Alexey Evdokimov
с обычными-то эвристиками расписывать приходится, как матчинг в каждом конкретном кейсе происходит, а уж если чёрный ящик типа нейронки, там фиг что докажешь
ну локальные расписывальщики обсудили, они применимы безотносительно что в функции predict происходит, и еще тебе нарисуют красивые графики и интерактивные апплеты где ты можешь спросить как будут меняться предсказания
источник

AZ

Anton Zadorozhniy in Data Engineers
SHAP, LIME - практически стандартные, мы в своем AnalyticOps уже даже все модели-примеры ими оснастили
источник

AE

Alexey Evdokimov in Data Engineers
нам предсказывать не надо, нам тока корректно классифицировать по мильёну параметров
источник

AE

Alexey Evdokimov in Data Engineers
предсказаниями пусть астрологи занимаются
источник

AE

Alexey Evdokimov in Data Engineers
у нас поведенческий анализ постфактум, не попытка предсказать куда завтра народ ломанётся
источник

AZ

Anton Zadorozhniy in Data Engineers
классификация это такая же задача как предсказание для МЛ, эти эксплейнеры работают точно также на классификаторах как и на регрессиях
источник

AA

Anton Alekseev in Data Engineers
Alexey Evdokimov
у нас поведенческий анализ постфактум, не попытка предсказать куда завтра народ ломанётся
ну тогда тут биморф поможет.😁
источник

AE

Alexey Evdokimov in Data Engineers
хех.

модель, обученная на лондоне, не работает в хельсинках и москве.

а набор эвристик — работает.
источник

AE

Alexey Evdokimov in Data Engineers
а обучать на каждый город присутствия как обычно не по бюджету
источник

AZ

Anton Zadorozhniy in Data Engineers
Alexey Evdokimov
хех.

модель, обученная на лондоне, не работает в хельсинках и москве.

а набор эвристик — работает.
набор эвристик это в известном смысле такая же модель, только полученная не каким-то градиентным спуском, а из головы эксперта
источник

AZ

Anton Zadorozhniy in Data Engineers
вопрос о том что SME на дистанции сможет работать лучше чем модели вроде давно решили (не сможет), но мб у вас улучшения от нормальных моделей не окупают их обучение, это другой вопрос, так часто бывает
источник

AE

Alexey Evdokimov in Data Engineers
о чём и речь. слишком дорого учить, датасеты кардинально разного качества в разное время по одинаковым территориям даже
источник

AE

Alexey Evdokimov in Data Engineers
так что появился проект — написали на питоне, потестили, проверили, доказали, а потом переписали на жабе и вытащили кучку настроек, которые можно тюнить для следующего проекта, если в нём те же параметры, но датасет другой
источник

AZ

Anton Zadorozhniy in Data Engineers
можно проложить абстракцию (условно назвать ее фичестор) и кормить обучение и сервинг из нее, а готовить данные для фичастора уже индивидуально в каждом случае
источник

AZ

Anton Zadorozhniy in Data Engineers
некоторые так делают, и это даже работает)
источник

AE

Alexey Evdokimov in Data Engineers
сложна
источник

AZ

Anton Zadorozhniy in Data Engineers
зато очень удобно, сразу встроенный аудит, расширяемые метаданные, меньше жмут проблемы дата дискавери, все счастливы
источник

АА

Алексей Артамонов... in Data Engineers
@dartov а не подскажешь jupyterhub надо на всех нодах ставить?  я что-то запутался
источник

AZ

Anton Zadorozhniy in Data Engineers
Алексей Артамонов
@dartov а не подскажешь jupyterhub надо на всех нодах ставить?  я что-то запутался
источник

АА

Алексей Артамонов... in Data Engineers
@dartov я извеняюсь конечно, но что-то подзапутался jupyterhub-yarnspawner я ставлю на всех нодах? proxy user я так же настраиваю на всех нодах. а саму настройку(jupyterhub_config.py) произвожу на одной неймноде?
потом надо готовлю Packaging a Conda Environment with Conda-Pack и кладу его уже в hdfs
источник