Size: a a a

2021 July 07

AM

Artur Mustafin in Data Engineers
это гипермодерн, могу прислать картинку из 2013 :)
источник

N

Nikita Blagodarnyy in Data Engineers
Оракл 9и прекрасен.
источник

AZ

Anton Zadorozhniy in Data Engineers
40 ТБ, мда
источник

AM

Artur Mustafin in Data Engineers
ну, да. когда перешли на 10g java-программист, пожаловался, какой плохой саппорт в Индии. и это сущая правда.
источник

AD

Alexander Dorofeev in Data Engineers
Всем привет!
Да, пинганули правильно )

Если коротко, то на момент моего прихода в Ашан был только оракл - неплох для приложений, но разрабатывать и запускать ML-решения невозможно (имхо). Поэтому нужны были новые технологии, запустить которые проще, быстрее и дешевле в облаке. Ждать ит, пока они наймут кучу архитекторов и инженеров, которые потом будут год договариваться (утрирую) времени не было.
Это ответ на вопрос, почему облако.
источник

AD

Alexander Dorofeev in Data Engineers
Почему mail? Дали лучшее предложение исходя из баланса цена-безопасность-уровень сервиса.
На забываем про перс данные и потенциальные штрафы от Роскомнадзора до 75 тр за одну запись ))
источник

AD

Alexander Dorofeev in Data Engineers
Я очень патриотичен и считаю, что бизнес должен быть социально ориентирован. Но если скомпрометировать 30 млн записей покупателей, то многомиллиардный штраф государству - это круто даже для супер-соц.ориентированной компании
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
Я правильно понимаю, что вы просто взяли и переехали as is в облако мейла? Т.е. просто взяли, создали ручками виртуалок и перенесли все туда? И еще вопрос, как решали проблему трафика от источников, если они, на сколько я понял, в on-premise?
источник

AM

Artur Mustafin in Data Engineers
Ну, я думаю, мы бы с вами сработались :)
источник

JM

J M in Data Engineers
"облако мейла" звучит как страшилка в лагере у костра
источник

AM

Artur Mustafin in Data Engineers
Вообще, без разницы, где, лишь бы работало
источник

AD

Alexander Dorofeev in Data Engineers
Мы не переезжали, потому что инфраструктуры для Big Data не было от слова совсем. Мы создали ее.
Да. Создали виртуалки и на них развёрнуты кластеры Hadoop, clickhouse, …
Пору раз уже отмасштабировались как горизонтально, так и вертикально - здесь как раз все лайтово ибо виртуалки в облаке с условно бесконечными ресурсами

Данные стараемся грузить из хранилища (зачем повторять работу, которую уже сделали коллеги, плюс нужен один источник правды). Один день продаж (чеки со строками, это 70% данных) заплетает в hdfs примерно за 5 минут. Далее магия на spark: проверить, почистить, разложить по полочкам.

RT пока нет, но если бы был, то тогда, возможно пришлось бы связываться с кассами (или концентраторами чеков) напрямую и складывать в отдельную модель со сроком жизни 1 день. Ночью придут данные из хранилища и они уже будут не нужны.
источник

AZ

Anton Zadorozhniy in Data Engineers
а если не секрет, почему в хадуп грузили? объемы вроде небольшие, гринплам решили не расширять?
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
Стоит заметить, что масштабирование в данном случае - это не заслуга облака, а возможность ПО
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
Ах да, еще удивительно, почему так мало данных? И все таки, хотелось бы получить ответы на свои вопросы...
источник

AM

Artur Mustafin in Data Engineers
ух меня подмывает сказать что данных не мало, все чеки собираются, и уходят в статистику и в BI
источник

AM

Artur Mustafin in Data Engineers
это требования закона, налоговой, и там еще кое-чего, но это в общем, нормально данных, не мало
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
40Тб в хадупе и это скорее всего с учетом реплики - смешно
источник

A

Aleksey in Data Engineers
Так Ашан маленькая сеть- чего бы там быть большому объему данных?
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
Проходимость большая
источник