Телеграмм чат группы hadoopusers страница 2921

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2007 membersпожаловаться на группу

2020 November 03

ИК

Иван Калининский... in Data Engineers

Коллеги, подскажите, как читать Parquet в dataset/rdd в соотношении 1 файл - одна партиция rdd. Там надо мудрить с maxPartitionBytes и стоимостью открытия файла, или есть способ проще и надёжнее? Или вообще способа нет, просто прочитать и сделать .repartition?

источник

16:47пожаловаться #1

AS

Andrey Smirnov in Data Engineers

Иван Калининский

Коллеги, подскажите, как читать Parquet в dataset/rdd в соотношении 1 файл - одна партиция rdd. Там надо мудрить с maxPartitionBytes и стоимостью открытия файла, или есть способ проще и надёжнее? Или вообще способа нет, просто прочитать и сделать .repartition?

можно подсчитать кол-во файлов в директории и читать нужным числом партиций?

источник

17:11пожаловаться #2

SS

Sergey Sheremeta in Data Engineers

Anton Zadorozhniy

ну вот Терадата даже небольших размеров держит два десятка интерактивных пользователей на сильно больших объемах, 95 процентиль для тактических запросов в районе 2-5 секунд вроде

а Терадата нагибает Экзадату?

источник

17:14пожаловаться #3

АЖ

Андрей Жуков... in Data Engineers

Sergey Sheremeta

а Терадата нагибает Экзадату?

вот это наброс

источник

17:16пожаловаться #4

SS

Sergey Sheremeta in Data Engineers

источник

17:16пожаловаться #5

AZ

Anton Zadorozhniy in Data Engineers

Sergey Sheremeta

а Терадата нагибает Экзадату?

ну мы тут не тинейджеры во дворе чтобы кто-то кого-то нагибал.. технически это разные архитектуры (intelligent storage vs pure shared nothing mpp) и разные легаси реализаций, для каких-то сценариев лучше подойдет одна, для каких-то другая

источник

17:18пожаловаться #6

SS

Sergey Sheremeta in Data Engineers

блин, Антон - профи! не поддается

источник

17:19пожаловаться #7

АЖ

Андрей Жуков... in Data Engineers

опыт!

источник

17:19пожаловаться #8

AZ

Anton Zadorozhniy in Data Engineers

но обе эти СУБД с архитектурой из прошлого века, и видимо не будут в новый переписаны, так что если вы архитектор продукта который с ними конкурирует - спокойно пишите дальше, у вас есть все шансы на успех (см историю сноуфлейк)

источник

17:21пожаловаться #9

ИК

Иван Калининский... in Data Engineers

можно подсчитать кол-во файлов в директории и читать нужным числом партиций?

Подсчитать не проблема, уже сделано. Как задать число партиций? defaultParallelism?

источник

17:36пожаловаться #10

AS

Andrey Smirnov in Data Engineers

Иван Калининский

Подсчитать не проблема, уже сделано. Как задать число партиций? defaultParallelism?

была такая идея, но видимо попробовали и не работает?

источник

18:03пожаловаться #11

VS

Vasily Shabanov in Data Engineers

ага, там таблицы руками надо переназначивать

источник

18:06пожаловаться #12

VS

Vasily Shabanov in Data Engineers

запусти снова плиз

источник

18:07пожаловаться #13

ДН

Дмитрий Негреев... in Data Engineers

Sergey Sheremeta

а Терадата нагибает Экзадату?

единственное что нагибает экзадата - это кошелек)

источник

18:08пожаловаться #14

UD

Uncel Duk in Data Engineers

Anton Zadorozhniy

но обе эти СУБД с архитектурой из прошлого века, и видимо не будут в новый переписаны, так что если вы архитектор продукта который с ними конкурирует - спокойно пишите дальше, у вас есть все шансы на успех (см историю сноуфлейк)

Назад в монолиты переобулись почти уже

источник

18:08пожаловаться #15

UD

Uncel Duk in Data Engineers

источник

18:08пожаловаться #16

AZ

Anton Zadorozhniy in Data Engineers

Назад в монолиты переобулись почти уже

what?

источник

18:11пожаловаться #17

R

Renarde in Data Engineers

Anton Zadorozhniy

но обе эти СУБД с архитектурой из прошлого века, и видимо не будут в новый переписаны, так что если вы архитектор продукта который с ними конкурирует - спокойно пишите дальше, у вас есть все шансы на успех (см историю сноуфлейк)

я конечно извиняюсь, но как по мне Snowflake концептуально не отличается от Teradata или других DWH, просто он cloud-native.
поправь меня если я не прав

источник

18:12пожаловаться #18

UD

Uncel Duk in Data Engineers

Anton Zadorozhniy

what?

Ну каргокульт за фаангами начал буксовать

источник

18:14пожаловаться #19

AZ

Anton Zadorozhniy in Data Engineers

я конечно извиняюсь, но как по мне Snowflake концептуально не отличается от Teradata или других DWH, просто он cloud-native.
поправь меня если я не прав

snowflake построен изначально под клауд: все хранение изначально в S3, кластер по сути держит WAL и кэши, отсюда обновления и скейлинг без остановки, спокойно переживают всякие падения и проч

источник

18:15пожаловаться #20