Телеграмм чат группы hadoopusers страница 3852

Всем привет!
Да, пинганули правильно )

Если коротко, то на момент моего прихода в Ашан был только оракл - неплох для приложений, но разрабатывать и запускать ML-решения невозможно (имхо). Поэтому нужны были новые технологии, запустить которые проще, быстрее и дешевле в облаке. Ждать ит, пока они наймут кучу архитекторов и инженеров, которые потом будут год договариваться (утрирую) времени не было.
Это ответ на вопрос, почему облако.

источник

11:46пожаловаться #5

Alexander Dorofeev in Data Engineers

Почему mail? Дали лучшее предложение исходя из баланса цена-безопасность-уровень сервиса.
На забываем про перс данные и потенциальные штрафы от Роскомнадзора до 75 тр за одну запись ))

источник

11:48пожаловаться #6

Alexander Dorofeev in Data Engineers

Я очень патриотичен и считаю, что бизнес должен быть социально ориентирован. Но если скомпрометировать 30 млн записей покупателей, то многомиллиардный штраф государству - это круто даже для супер-соц.ориентированной компании

источник

11:51пожаловаться #7

Vladislav 👻 Shishkov... in Data Engineers

Я правильно понимаю, что вы просто взяли и переехали as is в облако мейла? Т.е. просто взяли, создали ручками виртуалок и перенесли все туда? И еще вопрос, как решали проблему трафика от источников, если они, на сколько я понял, в on-premise?

источник

11:54пожаловаться #8

Artur Mustafin in Data Engineers

Ну, я думаю, мы бы с вами сработались :)

источник

11:55пожаловаться #9

J M in Data Engineers

"облако мейла" звучит как страшилка в лагере у костра

источник

11:58пожаловаться #10

Artur Mustafin in Data Engineers

Вообще, без разницы, где, лишь бы работало

источник

12:03пожаловаться #11

Alexander Dorofeev in Data Engineers

Мы не переезжали, потому что инфраструктуры для Big Data не было от слова совсем. Мы создали ее.
Да. Создали виртуалки и на них развёрнуты кластеры Hadoop, clickhouse, …
Пору раз уже отмасштабировались как горизонтально, так и вертикально - здесь как раз все лайтово ибо виртуалки в облаке с условно бесконечными ресурсами

Данные стараемся грузить из хранилища (зачем повторять работу, которую уже сделали коллеги, плюс нужен один источник правды). Один день продаж (чеки со строками, это 70% данных) заплетает в hdfs примерно за 5 минут. Далее магия на spark: проверить, почистить, разложить по полочкам.

RT пока нет, но если бы был, то тогда, возможно пришлось бы связываться с кассами (или концентраторами чеков) напрямую и складывать в отдельную модель со сроком жизни 1 день. Ночью придут данные из хранилища и они уже будут не нужны.

источник

12:05пожаловаться #12

Anton Zadorozhniy in Data Engineers

а если не секрет, почему в хадуп грузили? объемы вроде небольшие, гринплам решили не расширять?

источник

12:06пожаловаться #13

Vladislav 👻 Shishkov... in Data Engineers

Стоит заметить, что масштабирование в данном случае - это не заслуга облака, а возможность ПО

источник

12:14пожаловаться #14

Vladislav 👻 Shishkov... in Data Engineers

Ах да, еще удивительно, почему так мало данных? И все таки, хотелось бы получить ответы на свои вопросы...