Телеграмм чат группы hadoopusers страница 1884

Что за параметры? Откуда они берутся?
Если один параметр SparkConf, чтоб сконфигурировать свой listener, то этот параметр будет передан при создании listener-а, переданного через extralisteners

источник

18:43пожаловаться #9

Oleg in Data Engineers

Вообще идея была писать в базу некоторые метрики на всяких ивентах

источник

18:55пожаловаться #10

Oleg in Data Engineers

То есть это или стринги, или writer какой-то

источник

18:56пожаловаться #11

Вадим in Data Engineers

Oleg

Вообще идея была писать в базу некоторые метрики на всяких ивентах

Если кейс подробнее опишешь, тебе обязательно помогут

источник

19:23пожаловаться #12

Вадим in Data Engineers

Возьми любую очередь, сделай агрегатор и пиши батчами

источник

19:23пожаловаться #13

Вадим in Data Engineers

Это не обязательно делать на спарке

источник

19:24пожаловаться #14

Oleg in Data Engineers

Вадим

Если кейс подробнее опишешь, тебе обязательно помогут

Пишем либу, которую будем юзать во всех спарк аппликухах.
Идея была такая, есть класс, в нем метод, который принимает спарксешн билдер и какую то функцию от спарксешн, в которой вся логика выполняется.

Зачем нужен спарклисенер: при старте апп выковыриваем с ивентов: апп айди, старт тайм, аттемпт айди, много ещё чего.

Все это сторится в базу. Коннекшен к базе зависит от энва, и передается снаружи. Поэтому у лисенера конструктор с параметрами.
Кроме того, хотелось после рана основной логики в базе ещё и обновлять статус, поэтому как минимум айди записи в базу нужно экспоузить за рамки лисенера(планировалось, что у лисенера будет var - Стейт публичный.

источник

20:43пожаловаться #15

Oleg in Data Engineers

Идея с душком, лучше не придумали (

источник

20:44пожаловаться #16

Oleg in Data Engineers

Раньше это все просто сыпалось в лог, поэтому лисенер не имел конструктор и стейт и мы его передавали через конф(фул квалифаед нейм)

источник

20:46пожаловаться #17

2019 December 12

МК

Михаил Королев in Data Engineers

Всем привет, у кого-то есть позитивный (или наоборот - негативный, т.е. использовал и бросил потому что...) опыт использования Atlas (2.x)? Я смотрел на 1.0 - там было уныло, 2.0 с лету не взлетел, думаю - стоит ли тратить энергию.
Задача - иметь место, где (теоретически) можно видеть метаданные по тому, что есть в Hadoop

источник

10:23пожаловаться #18

ddre_z in Data Engineers

привет, может кто знает бест практику по аггрегации категориальных переменных?

источник

10:46пожаловаться #19

Mi in Data Engineers

Roman

Нет. Не получилось. Перепробовал несколько вариантов - без успешно.
Проверял конфиги ярна - вроде бы все норм.
При этом я точно знаю, что это можно сделать, потому что:
1) на более старых версиях спарка(но не в emr) я так делал
2) так в документации написано)

Есть подозрение, что дело в emr. Так как страничка с executors в spark ui не открывается)
Если что использую emr 5.25.

А вы в emr видели подобную ошибку?

Возможно вам будет интересно :тут недавно наткнулся на одну настройку, которая может быть причиной такого поведения с ядрами и контейнерами, дело не в yarn-site.xml, а в capacity-scheduler.xml - там есть настройка дефлотного калькулятора ресурсов, который использует для расчетов только память, игнорируя количество ядер. https://stackoverflow.com/questions/29964792/apache-hadoop-yarn-underutilization-of-cores

Stack Overflow

Apache Hadoop Yarn - Underutilization of cores

No matter how much I tinker with the settings in yarn-site.xml i.e using all of the below options

yarn.scheduler.minimum-allocation-vcores
yarn.nodemanager.resource.memory-mb
yarn.nodemanager.reso...

источник

12:23пожаловаться #20