Size: a a a

2020 September 09

DZ

Dmitry Zuev in Data Engineers
Nikita Blagodarnyy
и как бы он в виме пивот таблицу быстро сделал или дубликаты в столбце удалил?
Взял бы питон
источник

DZ

Dmitry Zuev in Data Engineers
Vslookup ужасен от рождения
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Blagodarnyy
и как бы он в виме пивот таблицу быстро сделал или дубликаты в столбце удалил?
Ну мы ж про инженера говорим, а не бухгалтера, взял бы панд или r и сделал скрипт
источник

AT

Al T in Data Engineers
вот так и лепят из r или г скрипты, а поддерживать потом плачут и костылят ))
источник

AZ

Anton Zadorozhniy in Data Engineers
Вместо промышленных чего там для скриптов в экселе?
источник

N

Nikita Blagodarnyy in Data Engineers
Dmitry Zuev
Vslookup ужасен от рождения
когда в левой руке выгруженный финансистами из учетной системы в Excel баланс, а в правой твоя выгрузка из даталейка и надо найти, где рвется-ничего лучше впр нет.
источник

AT

Al T in Data Engineers
да я за эксель не топлю ))
источник

AT

Al T in Data Engineers
Nikita Blagodarnyy
когда в левой руке выгруженный финансистами из учетной системы в Excel баланс, а в правой твоя выгрузка из даталейка и надо найти, где рвется-ничего лучше впр нет.
я вот для таких юскейсов был в свое время оч ленив и расчехлял пентаху
источник

N

Nikita Blagodarnyy in Data Engineers
Anton Zadorozhniy
Вместо промышленных чего там для скриптов в экселе?
никто не говорит про промышленные решения в экселе. понятно, что не надо делать инжиниринг на VBA. Но быстрый одноразовый анализ пивот-таблицами, которые можно как угодно крутить, фильтровать, группировать, на порядки эффективнее любого скриптования.
источник

N

Nikita Blagodarnyy in Data Engineers
просто каждый инструмент надо по назначению использовать.
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Blagodarnyy
никто не говорит про промышленные решения в экселе. понятно, что не надо делать инжиниринг на VBA. Но быстрый одноразовый анализ пивот-таблицами, которые можно как угодно крутить, фильтровать, группировать, на порядки эффективнее любого скриптования.
Я понимаю о чем вы говорите, я скорее про догфуддинг, когда инженер использует свой стек максимально, даже для простейших задач
источник

AT

Al T in Data Engineers
не у всех есть такая железная дисциплина, да иногда и нормальной еды хочется ) а не догфуддинга
источник

AZ

Anton Zadorozhniy in Data Engineers
Поэтому в моих командах обычно два правила: 1) любой инженерный результат должен быть в плейнтексте и 2) эти файлы должны быть в гите
источник

R

Rodion in Data Engineers
Nikita Blagodarnyy
когда в левой руке выгруженный финансистами из учетной системы в Excel баланс, а в правой твоя выгрузка из даталейка и надо найти, где рвется-ничего лучше впр нет.
а чем пандас плох для такого кейса?
источник

AT

Al T in Data Engineers
так вы и еще и других заставляете - какой вы страшный человек, Антон
источник

AZ

Anton Zadorozhniy in Data Engineers
Al T
так вы и еще и других заставляете - какой вы страшный человек, Антон
Да, я работаю не чтобы заводить друзей)
источник

AT

Al T in Data Engineers
))
источник

K

KrivdaTheTriewe in Data Engineers
Grigory Pomadchin
во или зио!
мы анверное доклад сделаем
источник

AZ

Anton Zadorozhniy in Data Engineers
Готов сделать исключение для ipynb, но мое терпение уже заканчивается
источник

S

Stanislav in Data Engineers
Nikita Blagodarnyy
-модерн инжир 2020

-пиг
-месос
-узи
ну чо ты
узи живее всех живых на кластерах в десятки петабайт, кто ж слезет с легаси
месос - вон парни вроде большую инсталяцию хайва на 100пб в нем держали https://www.highload.ru/moscow/2018/abstracts/4214
это вам не хипсторы с экселем
www.highload.ru
Александр Мазуров  на HighLoad++ 2018
Компания Criteo построила один из самых больших в Европе Hadoop-кластеров, в котором Hive является ключевым инструментом обработки данных. В докладе обсуждается эволюция платформы Hive от подверженной ошибкам установки на выделенных серверах до самой лучшей в своем классе архитектуры, способной к самовосстановлению, автоматическому масштабированию для управления растущей нагрузкой.Полученная платформа основана на системе управления кластерами Mesos, которая позволяет масштабироваться по требованию, рационально использовать ресурсы и без проблем развертывать новые версии Hive. В докладе подробно описывается архитектура данных Criteo. Слушатели узнают, как компания решила проблемы безопасности, мониторинга, планирования, тестирования и балансировки нагрузки на нескольких уровнях.Доклад рассчитан на разработчиков, имеющих базовые знания о Hive и Mesos/Marathon.
источник