Size: a a a

2020 October 13

AZ

Anton Zadorozhniy in Data Engineers
Uncel Duk
А какие затраты? В людях например
две команды (чтобы покрывать шарик), человек по 12 чтоли было
источник

AZ

Anton Zadorozhniy in Data Engineers
клиентов немного, меньше сотни
источник

AZ

Anton Zadorozhniy in Data Engineers
но правда у нас была закрытая инсталляция, клиентам не давали особо трогать ничего
источник

UD

Uncel Duk in Data Engineers
Бесит что сообщество ( апач ) гоняется за новыми модными блестяшками, а на мердж патчей болт кладут
источник

AZ

Anton Zadorozhniy in Data Engineers
Uncel Duk
Бесит что сообщество ( апач ) гоняется за новыми модными блестяшками, а на мердж патчей болт кладут
эт нормально, все так делают
источник

UD

Uncel Duk in Data Engineers
Anton Zadorozhniy
эт нормально, все так делают
Ну как контрпример, система мейнтейнеров в линуксе
источник

UD

Uncel Duk in Data Engineers
Багфиксы быстро вливаются
источник

UD

Uncel Duk in Data Engineers
Потом бэкпорты в стабильные ядра
источник

AZ

Anton Zadorozhniy in Data Engineers
Uncel Duk
Ну как контрпример, система мейнтейнеров в линуксе
это LSF, у ASF другие стандарты
источник

UD

Uncel Duk in Data Engineers
В хайве тривиальный патч, с таргетом 3+
источник

UD

Uncel Duk in Data Engineers
Anton Zadorozhniy
это LSF, у ASF другие стандарты
Имхо, на все па с semantic versioning можно положить болт, если это решает проблемы сообщества
источник

AZ

Anton Zadorozhniy in Data Engineers
Uncel Duk
Имхо, на все па с semantic versioning можно положить болт, если это решает проблемы сообщества
это решает каждый конкретный проект
источник

UD

Uncel Duk in Data Engineers
Anton Zadorozhniy
это решает каждый конкретный проект
Или условная клаудера =)
источник

AS

Andrey Smirnov in Data Engineers
Uncel Duk
За две недели очень поел говна с ним и тезом, баги в джире есть 3+ года, на некоторые дажи патчи есть
а чем закончилась эта история с форком?
источник

UD

Uncel Duk in Data Engineers
Andrey Smirnov
а чем закончилась эта история с форком?
Пока ничем, я обложил костылями текущую версию хайва
источник

AZ

Anton Zadorozhniy in Data Engineers
я бы сказал что это нормальная история, в большинстве ASF проектов соотношение LOC/Contributors сильно больше чем у линукса или постгри, я бы тоже бежал вперед с таким ограниченным числом ресурсов
источник

AZ

Anton Zadorozhniy in Data Engineers
Sergey Sheremeta
однозначно Hoodie лучше DeltaLake OSS - как минимум из-за Merge-On-Read таблиц и поддержки глобальных индексов в Hbase/Cassandra (связь между первичным ключем данных и каталога партиции/субпартиции/субсубпартиции/бакета)
merge-on-read у айсберга в работе, еще не доступен в релизе (и это сильно сложнее, так как у айсберга подключаемые движки на запись, а не прибито гвоздями к спарку)
источник

R

Roman in Data Engineers
Anton Zadorozhniy
merge-on-read у айсберга в работе, еще не доступен в релизе (и это сильно сложнее, так как у айсберга подключаемые движки на запись, а не прибито гвоздями к спарку)
Вы частенько поднимаете тему с iceberg. Я правильно понимаю, что это что - то типа orc/parquet next gen, если очень грубо? Может у вас есть success story где - то описанный, было бы интересно почитать)
источник

AZ

Anton Zadorozhniy in Data Engineers
Roman
Вы частенько поднимаете тему с iceberg. Я правильно понимаю, что это что - то типа orc/parquet next gen, если очень грубо? Может у вас есть success story где - то описанный, было бы интересно почитать)
нет, iceberg/hudi/delta это скорее hive acid done right; orc/parquet это форматы хранения, они продолжают использоваться вместе с iceberg/hudi/delta
источник

AZ

Anton Zadorozhniy in Data Engineers
для большого success story with Iceberg еще рано (может быть у китайских товарищей), а мне врядли разрешат рассказать о моих проектах
источник