Мы не переезжали, потому что инфраструктуры для Big Data не было от слова совсем. Мы создали ее.
Да. Создали виртуалки и на них развёрнуты кластеры Hadoop, clickhouse, …
Пору раз уже отмасштабировались как горизонтально, так и вертикально - здесь как раз все лайтово ибо виртуалки в облаке с условно бесконечными ресурсами
Данные стараемся грузить из хранилища (зачем повторять работу, которую уже сделали коллеги, плюс нужен один источник правды). Один день продаж (чеки со строками, это 70% данных) заплетает в hdfs примерно за 5 минут. Далее магия на spark: проверить, почистить, разложить по полочкам.
RT пока нет, но если бы был, то тогда, возможно пришлось бы связываться с кассами (или концентраторами чеков) напрямую и складывать в отдельную модель со сроком жизни 1 день. Ночью придут данные из хранилища и они уже будут не нужны.