Size: a a a

2020 February 03

C

Combot in Data Engineers
Yawer Raza Mendiola IV has been banned! Reason: CAS ban.
источник

C

Combot in Data Engineers
Gabriel Assulayman has been banned! Reason: CAS ban.
источник

VS

Vasily Surov in Data Engineers
Panchenko Andrey
Ребята привет, поковырял, в запиненом но не нашел.
Есть тут те кто работают с GCP?
Есть на примете годная литературв?
gcp меняется так быстро, что даже их собственная онлайн документация не успевает, не говоря уж про печатную.
вот здесь еще можно всякие интересные мысли потаскать
https://cloud.google.com/blog/
источник

VS

Vasily Surov in Data Engineers
есть и ютубный канал, но там больше маркетингового бла-бла-бла или просто 100-500 тыщ не понятно к чему 2-х минутных роликов. разве что с google next можно некоторые смотреть
https://www.youtube.com/user/googlecloudplatform
источник

PA

Panchenko Andrey in Data Engineers
Vasily Surov
есть и ютубный канал, но там больше маркетингового бла-бла-бла или просто 100-500 тыщ не понятно к чему 2-х минутных роликов. разве что с google next можно некоторые смотреть
https://www.youtube.com/user/googlecloudplatform
Спасибо бывают и там и тут.
На Медиуме или Товардсаенсе проскакивают неплохие статьи
источник
2020 February 04

AL

Artem Likhomanenko in Data Engineers
здравствуйте, подскажите нынче кто как решает проблему с маленькими файлами авро на hdfs?
источник

GP

Grigory Pomadchin in Data Engineers
Artem Likhomanenko
здравствуйте, подскажите нынче кто как решает проблему с маленькими файлами авро на hdfs?
Руками собирай маленькие авро файлы в большие (относительно) мап файлы и клади
источник

AL

Artem Likhomanenko in Data Engineers
Grigory Pomadchin
Руками собирай маленькие авро файлы в большие (относительно) мап файлы и клади
это же относится к разряду решений через SequenceFile? И если я захочу потом сверху натянуть хайв, вдруг, то он не умеет такое и мне надо будет создавать что то еще?
Пока задача стоит сделать компакшин по сути, для оптимизации мапредьюса
источник

GP

Grigory Pomadchin in Data Engineers
Artem Likhomanenko
это же относится к разряду решений через SequenceFile? И если я захочу потом сверху натянуть хайв, вдруг, то он не умеет такое и мне надо будет создавать что то еще?
Пока задача стоит сделать компакшин по сути, для оптимизации мапредьюса
Да, надо как-то самому индексы поверх таких файлов кинуть что бы чтение осуществлять нужных файлов и нужных записей из них
источник

GP

Grigory Pomadchin in Data Engineers
хайв хз; наверн из коробки не может; сс @krivdathetriewe может знает
источник

AL

Artem Likhomanenko in Data Engineers
Grigory Pomadchin
Да, надо как-то самому индексы поверх таких файлов кинуть что бы чтение осуществлять нужных файлов и нужных записей из них
а если я захочу потом это дело конвертнуть в parquet, я умру?))
источник

S

Stanislav in Data Engineers
проходи раз в день и склеивай эту мелочь в нормальный вид
источник

AL

Artem Likhomanenko in Data Engineers
@pomadchin cпасибо, еще почитаю про SequenceFile
источник

K

KrivdaTheTriewe in Data Engineers
Artem Likhomanenko
а если я захочу потом это дело конвертнуть в parquet, я умру?))
Можно раз в интервал считывать Файлы и перекладывать их в пожатый паркет
источник

K

KrivdaTheTriewe in Data Engineers
Но доступ на чтение к архивным данным только там где паркет
источник

K

KrivdaTheTriewe in Data Engineers
Уже
источник

K

KrivdaTheTriewe in Data Engineers
Плюс есть «горячая» таблица
источник

K

KrivdaTheTriewe in Data Engineers
Там только последние Файлы в авро
источник

AL

Artem Likhomanenko in Data Engineers
KrivdaTheTriewe
Плюс есть «горячая» таблица
у нас для этого солр)
источник

AL

Artem Likhomanenko in Data Engineers
а
источник