Size: a a a

2021 July 27

AZ

Anton Zadorozhniy in Data Engineers
Я о том же
источник

N

Nikita Blagodarnyy in Data Engineers
я не понимаю, где Excel? почему его не тестировали?
источник

AS

Andrey Smirnov in Data Engineers
вот я  говорю, что для Индии норм доклад, но тащить подобное в штаты уже как то так себе, я приехал он бы с подобным на хайлоад в москву, узнал бы много нового про себя
источник

D

Dmitriy in Data Engineers
по идеи он 50гб не переварит оппросту
источник

h

helby in Data Engineers
data.table❤️
источник

AZ

Anton Zadorozhniy in Data Engineers
H2OWorld это не то чтобы центровое мероприятие, ну и рассказ там про дата тейбл, он правда отличный
источник

AS

Andrey Smirnov in Data Engineers
ага, в бенчмарк входит время заливки данных, все, можно блин закрывать такой отчет
источник

AS

Andrey Smirnov in Data Engineers
ну вот и сравнивай его с пандасом, я правда не смотрел в тот код, может там аналогичная отвага и  безумие
источник

DT

Dmitry Titov in Data Engineers
Кликхаус подозрительно все JOIN по памяти не проходит, скорее всего намудрили чего то с порядком таблиц
источник

AS

Andrey Smirnov in Data Engineers
если ставить задачу показать как хорош R, то ничего подозрительного. Выше предлагали по сравнивать с Excel. Я кстати удивлен, а где postgresq или хотя бы  sqllite
источник

K

KrivdaTheTriewe in Data Engineers
А как вы решили проблему с обновлением метадаты в импале , условно есть стриминг джоба которая льет данные  в партицию, в Хайве эта партиция есть , но импала не видит достаточно долго те файлы которые были добавлены недавно
источник

AS

Andrey Smirnov in Data Engineers
если вы уж заглянули на огонек,
clickhouse-client --max_memory_usage $CH_MEM --max_insert_threads 1
а если потоков больше, вставка быстрее не пройдет?
источник

DT

Dmitry Titov in Data Engineers
Пойдет, чего ей не пойти то
источник

AS

Andrey Smirnov in Data Engineers
вот я тоже удивился, автор бенчмарка специально выставил 1 поток
источник

DT

Dmitry Titov in Data Engineers
> You can create a table without a primary key using the ORDER BY tuple() syntax. In this case, ClickHouse stores data in the order of inserting. If you want to save data order when inserting data by INSERT ... SELECT queries, set max_insert_threads = 1.

Какая то сомнительная причина
источник

D

Dmitriy in Data Engineers
вообщем я верно понимаю что можно ставить 👎🏻 ?
источник

A

Alex in Data Engineers
Все рулится джобами которые переливают из кафки в хадуп

Они же и дёргают рефреш метадаты

У нас они раз в 15 мин отрабатывают
источник

AS

Andrey Smirnov in Data Engineers
мне это напомнило бенчмарк от майл.ру, где они сравнивали го и раст, го у них оказался быстрее. Потом конечно выяснилось, что регулярки для раста они написали неоптимально, скомпилили в дебаг режиме и т.д. По итогу раст оказался чуть бы не в разы быстрее, но видимо цель была показать какой быстрый го.
источник

A

Alex in Data Engineers
Чисто стримы есть, но те данные не в хадуп уходят

А то что и уходит, то задержки не критичны
источник

K

KrivdaTheTriewe in Data Engineers
Спасибо
источник