Телеграмм чат группы hadoopusers страница 3857

Не одно и то же, но остатки-это факты, они хранятся в разрезе ассортимента (дименшена), 1000 наименований-1000 строк в день, 70 миллионов наименований-70 млн строк (ваш КО). Для понимания-ассортимент sku одной только обуви, подлежащей маркировке в России-порядка 70 млн. Представьте сколько позиций в какой-нибудь молочке, где каждый вкус творожка и каждая фасовка-это отдельный вид товара.

источник

13:07пожаловаться #4

Vladislav 👻 Shishkov... in Data Engineers

вот именно

источник

13:07пожаловаться #5

Nikita Blagodarnyy in Data Engineers

ну так если количество дней в году для всех торговых сетей на нашей планете одинаково, то исключая другие дименшоны (что не очень умно, ибо расчет мультипликативный и нужно еще учитывать как минимум соотношение торговых точек) можно как раз получить соотношение объема данных из соотношения ассортиментов.

источник

13:10пожаловаться #6

Anton Zadorozhniy in Data Engineers

кол-во точек формата А * ассортимент точек формата А + кол-во точек формата В * ассортимент точек формата В + ...

источник

13:14пожаловаться #7

Aleksey in Data Engineers

Не нормально online ритейл сравнивать с offline. А сделать оценочное сравние разных компаний из одного сектора - это достаточно широкая практика. Можете посмотреть интересное интервью с основателем Самоката (Бочаровым) https://www.youtube.com/watch?v=p84I4gDGx1k - там он немного рассказывает как можно сравнивать бизнесы используя данные конкурентов и какую информацию можно из этого получить- это прям очень рабочий подход.

YouTube

Чечня, «Магнит», «Самокат»: русский фудтех-стартап едет в Нью-Йорк

Стать продактом или проджектом вместе с GeekBrains: https://gb.ru/link/qMvr1g

Наш новый герой — Вячеслав Бочаров, кофаундер сервиса экспресс-доставки «Самокат». Вернувшись со Второй чеченской войны, он пришел работать менеджером в молодую компанию «Магнит» и остался там на 15 лет и развил с нуля направление «Магнит косметик». После «Магнита» был сервис для многоквартирных домов с кнопкой доставки продуктов «Магазинчик», который они придумали с другом Родионом Шишковым, топ-менеджером «Почты России». Впоследствии он стал «Самокатом». Сейчас курьеров в розовых плащах можно увидеть почти в каждом дворе. За пандемийный год компания выросла в 30 раз, и даже после отмены жесткого локдауна «Самокат» не рухнул.

В мае 2020 года «Самокат» стал частью совместного предприятия Сбербанк и Mail.ru Group. Бочаров и Шишков фактически потеряли контроль над компанией. Летом 2021 года в Нью-Йорке под названием Buyk откроется аналог «Самоката». Об этом Вячеслав эксклюзивно рассказал «Русским норм».

Таймкоды

00:00 Стартап в…

источник

13:15пожаловаться #8

Aleksey in Data Engineers

источник

13:16пожаловаться #9

Aleksey in Data Engineers

на основе этих данных можно сделать оценку объемов, что вы вот сейчас и сделали. Чеки, Ассортимент, остатки и их агрегаты для офлайн ритейла самые большие таблицы.

источник

13:19пожаловаться #10

Anton Zadorozhniy in Data Engineers

надо еще сказать про отделы и нагрузку по competitive intelligence, они получается тоже зря получают свою зарплату)

источник

13:21пожаловаться #11

Aleksey in Data Engineers

ну то, что я видел явно не зря. Но вот некоторые компании, например не понимают ценности розничных цен - это для меня было просто удивительно. Закупочные цены считают очень секретными, а розничные нет.
Просто в лоб не нужно сравнивать онлайн с офлайн. Онлайн - там кликстримы самый большой кусок дают, которые еще и по объему переплюнут весь офлайн с его транзакциями.

источник

13:31пожаловаться #12

Vladislav 👻 Shishkov... in Data Engineers

Переслано от Vladislav 👻 Shishkov...

и я сейчас еще не брал в расчет кликстримы

источник

13:44пожаловаться #13

Mi in Data Engineers

Приветствую, кто-нибудь использовал активно kfserving (может в сочетании с кубфлоу)? Есть пара вопросов

источник

13:55пожаловаться #14

rpuropuu Greeg'O'Rii... in Data Engineers

Драйвер в спарке разделяет потоки?

источник

13:57пожаловаться #15

rpuropuu Greeg'O'Rii... in Data Engineers

А уже другой процесс эти потоки пилит на части?

источник

13:58пожаловаться #16

rpuropuu Greeg'O'Rii... in Data Engineers

Я правильно понял?

источник

13:58пожаловаться #17

ИК

Иван Калининский... in Data Engineers

Вопрос непонятный, про какие потоки речь?

Очень упрощенно: драйвер запрашивает (ну или создаёт, я не очень в курсе про standalone режим) ресурсы на создание экзекуторов, которые на кластере являются отдельными JVM, обрабатывает план запроса с участием экзекуторов в некоторых случаях, когда нужна информация о данных. План это DAG, в нем содержится информация, как создать и обработать RDD. В Spark UI можно видеть джобы, стейджи и таски, всё это части планов выполнения. Обработка в большинстве случаев выполняется именно на экзекуторах, и они отправляют статус на драйвер и могут отправить данные.

Так что где эти потоки, зачем их разделять, пилить на части и какой другой процесс это может сделать, мне из вопроса неясно.

источник

14:22пожаловаться #18

rpuropuu Greeg'O'Rii... in Data Engineers

план ДАГ это то, из чего состоит поток? и на какие составляющие его можно разложить?

источник

14:23пожаловаться #19

rpuropuu Greeg'O'Rii... in Data Engineers

тогда получается драйвер отбирает некую часть из графа... так что ли.. дублирует..

источник

14:24пожаловаться #20