Size: a a a

2020 December 16

А

Алексей in Data Engineers
Anton Zadorozhniy
смысл в том что данные выгружать по клиентской сети не надо, обучение идет прямо с дисков, в худшем случае - перераспределение данных по infinibad внутри самого кластера, все шустро
Я понимаю плюсы, но стоить это будет вагон, нужно сильно подумать, прежде чем делать такое
источник

V

Vasiliy in Data Engineers
Это когда у вас есть люди:
а) владеющие инструментом на 100 процентов
Б) считающие своим долгом за этим следить.

У нас таких нет, у большинства моих коллег из банков и ритейла тоже
источник

V

Vasiliy in Data Engineers
Процента 4-5 продуктивного времени всегда где то болтаются...
источник

V

Vasiliy in Data Engineers
У некоторых до 30
источник

V

Vasiliy in Data Engineers
Предыдущий наш рукосек, ответственный за развитие it когда то в пятере работал.
У них там пусть и ТД не было, но вот в цоде резервные ряды под парами они всегда имели...
источник

AZ

Anton Zadorozhniy in Data Engineers
Алексей
Я понимаю плюсы, но стоить это будет вагон, нужно сильно подумать, прежде чем делать такое
тут последовательность действий другая, врядли кто-то ставит терадату только для моделей, чаще всего у клиента есть большое хранилище, там уже есть все данные (и они постоянно обновляются пайплайнами), и можно либо тренировать (и потом скорить) где-то в стороне, со своей копией данных, поддерживать туда загрузку и все остальное, либо обучить и скорить прям тут, в базе
источник

V

Vasiliy in Data Engineers
Vasiliy
Предыдущий наш рукосек, ответственный за развитие it когда то в пятере работал.
У них там пусть и ТД не было, но вот в цоде резервные ряды под парами они всегда имели...
В это не сильно дешевле
источник

V

Vasiliy in Data Engineers
источник

AZ

Anton Zadorozhniy in Data Engineers
и это чисто для кейса partitioned model, я еще раз скажу что это редкий кейс.. чаще всего аналитик пишет код на питоне или р в датафреймах, оно исполняется на базе, а потом делает .toPandas и учит в ноутбуке или в контейнере на сервере
источник

V

Vasiliy in Data Engineers
Или им говорят хватит, и вручают три шкафа с hadoop и дорожку на 2750.
источник

V

Vasiliy in Data Engineers
Из практики)
источник

AZ

Anton Zadorozhniy in Data Engineers
Vasiliy
Или им говорят хватит, и вручают три шкафа с hadoop и дорожку на 2750.
Да, эт сплошь и рядом, сам такое делал)
источник

AZ

Anton Zadorozhniy in Data Engineers
Хадуп же бесплатный
источник

V

Vasiliy in Data Engineers
Не, им арену дали, лишь бы отстали.
источник

V

Vasiliy in Data Engineers
Ещё одним bda дозаказали. Есть и бесплатный, но это наша потребность, тестовая. Как только заходит речь о постоянном подтверждении бюджета - туда уже никто не хочет
источник

V

Vasiliy in Data Engineers
Парадокс
источник

V

Vasiliy in Data Engineers
Миллионы на ключевые потребности ищутся, а на локальном поле с бюджетом железо+админ играть никто не хочет
источник
2020 December 17

AT

Al T in Data Engineers
Anton Zadorozhniy
и это чисто для кейса partitioned model, я еще раз скажу что это редкий кейс.. чаще всего аналитик пишет код на питоне или р в датафреймах, оно исполняется на базе, а потом делает .toPandas и учит в ноутбуке или в контейнере на сервере
да уж где только нет, даже в старичке-редшифте уже можно не выходя из модельку наговнякать и инференсить
источник

AZ

Anton Zadorozhniy in Data Engineers
Al T
да уж где только нет, даже в старичке-редшифте уже можно не выходя из модельку наговнякать и инференсить
Если редшифт старичок то что говорить про нашу красавицу
источник

AT

Al T in Data Engineers
ваша бабулька еще Ленина видела, факт
источник