Телеграмм чат группы hadoopusers страница 2927

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2053 membersпожаловаться на группу

2020 November 05

А

Алексей in Data Engineers

https://docs.databricks.com/delta/optimizations/file-mgmt.html#z-ordering-multi-dimensional-clustering
https://databricks.com/blog/2018/07/31/processing-petabytes-of-data-in-seconds-with-databricks-delta.html?_ga=2.39107680.2124548659.1604511640-1543332958.1604511640

вторая больше техническая, там и Zorder объясняется

Optimize performance with file management — Databricks Documentation

Learn about the file management mechanisms available with Delta Lake on Databricks to improve performance.

честно сказать понятнее не стало от 2 ссылки. Понял, что zorder позволяет делать фильтрацию по нескольким колонкам, но тоже самое могут и блум фильтры. Делается ли repartition и сортировка при вызове zorder?

источник

17:01пожаловаться #1

K

Kate in Data Engineers

Всем привет) очееееень нужно узнать, сколько у вас занимает zookeeper места на HDD?

источник

17:53пожаловаться #2

GP

Grigory Pomadchin in Data Engineers

Всем привет) очееееень нужно узнать, сколько у вас занимает zookeeper места на HDD?

метров 40

источник

17:54пожаловаться #3

GP

Grigory Pomadchin in Data Engineers

источник

17:54пожаловаться #4

N

Nikolay in Data Engineers

Всем привет) очееееень нужно узнать, сколько у вас занимает zookeeper места на HDD?

Snapshot ? У нас 3gb

источник

17:55пожаловаться #5

K

Kate in Data Engineers

Nikolay

Snapshot ? У нас 3gb

Логи и данные в zookeeper

источник

17:56пожаловаться #6

GA

Georgiy Ashkar in Data Engineers

Знаю, вопрос не по теме, но подскажите пожалуйста, кто-нибудь занимался пробросом портов???
ser2net
com0com
com2tcp

источник

17:57пожаловаться #7

K

Kate in Data Engineers

И ещё вопросик: я сейчас собираю кластер Hadoop , нужно определиться с местом на namenode. Какой объём и сколько дисков? Что порекомендуете?

источник

18:01пожаловаться #8

AS

Andrey Shevchenko in Data Engineers

получалось у кого нибудь заставить работать

"spark.sql.sources.partitionOverwriteMode", "dynamic"

на spark2.4 / hadoop3.1 (CDP7.1.4)?
там что то изменилось в commitProtocolClass (по сравнению с CDH5.16) и теперь оно сломано

java.io.IOException: PathOutputCommitProtocol does not support dynamicPartitionOverwrite

источник

19:50пожаловаться #9

A

Anton Kovalenko in Data Engineers

И ещё вопросик: я сейчас собираю кластер Hadoop , нужно определиться с местом на namenode. Какой объём и сколько дисков? Что порекомендуете?

Можете нашими рекомендациями воспользоваться:

https://docs.arenadata.io/adh/install/planning.html#id8

источник

19:51пожаловаться #10

AZ

Anton Zadorozhniy in Data Engineers

И ещё вопросик: я сейчас собираю кластер Hadoop , нужно определиться с местом на namenode. Какой объём и сколько дисков? Что порекомендуете?

Если bare metal то лучше использовать одинаковую конфигурацию с воркерами, жизнь будет проще

источник

19:53пожаловаться #11

K

Kate in Data Engineers

Антон и Антон, спасибо))

источник

19:58пожаловаться #12

E

Evgeny in Data Engineers

Anton Kovalenko

Можете нашими рекомендациями воспользоваться:

https://docs.arenadata.io/adh/install/planning.html#id8

"Четыре или более 2-3 ТБ RAID 10 with spares для rm" ? куда там столько места? :)

источник

20:02пожаловаться #13

AZ

Anton Zadorozhniy in Data Engineers

Артур Семенов

Всем привет, кто-нибудь использует какие-нибудь формулы для создания Спарк приложений, чтобы корректно (оптимально) использовать ресурсы кластера, если вас на нем фиксированное количество человек?
Речь про настройку Спарк контекста
Поделитесь плиз опытом

Сильно зависит что за пользователи и что они делают, а также размера кластеров; для интерактивных пользователей я обычно рекомендую начать с трёх фиксированных наборов настроек (число и размер экзекьюторов, настройки dynamic allocation) условно S/M/L и давать пользователям их выбирать, дальше смотреть как кто использует

источник

20:19пожаловаться #14

АС

Артур Семенов... in Data Engineers

Anton Zadorozhniy

Сильно зависит что за пользователи и что они делают, а также размера кластеров; для интерактивных пользователей я обычно рекомендую начать с трёх фиксированных наборов настроек (число и размер экзекьюторов, настройки dynamic allocation) условно S/M/L и давать пользователям их выбирать, дальше смотреть как кто использует

а есть какие-нибудь методики по расчету на условные S/M/L ?
Параметров то много

источник

20:21пожаловаться #15

AS

Andrey Shevchenko in Data Engineers

Andrey Shevchenko

получалось у кого нибудь заставить работать

"spark.sql.sources.partitionOverwriteMode", "dynamic"

на spark2.4 / hadoop3.1 (CDP7.1.4)?
там что то изменилось в commitProtocolClass (по сравнению с CDH5.16) и теперь оно сломано

java.io.IOException: PathOutputCommitProtocol does not support dynamicPartitionOverwrite

если вдруг кто то будет искать в чатике, то решилось так

spark.conf.set("spark.sql.sources.commitProtocolClass", "org.apache.spark.internal.io.HadoopMapReduceCommitProtocol")

или

 
spark.conf.set("spark.sql.sources.commitProtocolClass", "org.apache.spark.sql.execution.datasources.SQLHadoopMapReduceCommitProtocol")

не разбирался в чем отличие между ними, но работает. и по умолчанию в CDH5.16 + spark2.4 используется второй

источник

20:25пожаловаться #16

AZ

Anton Zadorozhniy in Data Engineers

Артур Семенов

а есть какие-нибудь методики по расчету на условные S/M/L ?
Параметров то много

опять все зависит от того что за пользователи и что они делают; обычно логика такого рода: у нас есть 10 пользователей и ресурсов запустить 100 экзекьюторов для этой группы, нужно чтобы в пределе каждый мог запустить хотя бы 1 контекст, поэтому S мы поставим 1-10 экзекьюторов, L поставим 10-50 экзекьюторов чтобы один контекст L оставлял ресурсы для работы, M поставим 3-30 например; иногда видел что делают размер XS еще, из одного самого маленького экзекьютора

источник

20:31пожаловаться #17

АС

Артур Семенов... in Data Engineers

а помимо кол-ва эксезуторов, есть же еще ряд парамертров, такие как ядро на драйвер, память на драйвер, ядро/память на экзекутор, мемори оверхед и тд

источник

20:36пожаловаться #18

АС

Артур Семенов... in Data Engineers

как вот такими вещами грамотно распорядится так, чтобы при полной нагрузке задействовалось 100% кластера

источник

20:36пожаловаться #19

AZ

Anton Zadorozhniy in Data Engineers

Артур Семенов

как вот такими вещами грамотно распорядится так, чтобы при полной нагрузке задействовалось 100% кластера

это хадуп, 100% даже не мечтайте, только при диком оверкоммите по процессору)

источник

20:38пожаловаться #20