Size: a a a

2019 December 11

В

Вадим in Data Engineers
источник

В

Вадим in Data Engineers
простите
источник

O

Oleg in Data Engineers
А существование контекста означает, что апп уже стартанул? Я думал, о старте говорит сессия. Но я оч поверхностно со спарком знаком
источник

GP

Grigory Pomadchin in Data Engineers
Oleg
А существование контекста означает, что апп уже стартанул? Я думал, о старте говорит сессия. Но я оч поверхностно со спарком знаком
оно почти одно и тоже; сессия просто другая апиха, из неё конечно же можно контекст достать
источник

OI

Oleg Ilinsky in Data Engineers
источник

GP

Grigory Pomadchin in Data Engineers
можно лисенеры в конфиг добавить - spark.extraListeners
источник

O

Oleg in Data Engineers
Этот путь я знаю. Но у меня лисенер с конструктором.
Возможно, плохой дизайн...
источник

GP

Grigory Pomadchin in Data Engineers
Ну тогда только через эдд лисенерс, способ не очень хороший конечно, каждый раз рекомпилить джарник чтоб лисенеры поменять
источник

SZ

Sergey Zhemzhitsky in Data Engineers
Oleg
Этот путь я знаю. Но у меня лисенер с конструктором.
Возможно, плохой дизайн...
Что за параметры? Откуда они берутся?
Если один параметр SparkConf, чтоб сконфигурировать свой listener, то этот параметр будет передан при создании listener-а, переданного через extralisteners
источник

O

Oleg in Data Engineers
Вообще идея была писать в базу некоторые метрики на всяких ивентах
источник

O

Oleg in Data Engineers
То есть это или стринги, или writer какой-то
источник

В

Вадим in Data Engineers
Oleg
Вообще идея была писать в базу некоторые метрики на всяких ивентах
Если кейс подробнее опишешь, тебе обязательно помогут
источник

В

Вадим in Data Engineers
Возьми любую очередь, сделай агрегатор и пиши батчами
источник

В

Вадим in Data Engineers
Это не обязательно делать на спарке
источник

O

Oleg in Data Engineers
Вадим
Если кейс подробнее опишешь, тебе обязательно помогут
Пишем либу, которую будем юзать во всех спарк аппликухах.
Идея была такая, есть класс, в нем метод, который принимает спарксешн билдер и какую то функцию от спарксешн, в которой вся логика выполняется.

Зачем нужен спарклисенер: при старте апп выковыриваем с ивентов: апп айди, старт тайм, аттемпт айди, много ещё чего.

Все это сторится в базу. Коннекшен к базе зависит от энва, и передается снаружи. Поэтому у лисенера конструктор с параметрами.
Кроме того, хотелось после рана основной логики в базе ещё и обновлять статус, поэтому как минимум айди записи в базу нужно экспоузить за рамки лисенера(планировалось, что у лисенера будет var - Стейт публичный.
источник

O

Oleg in Data Engineers
Идея с душком, лучше не придумали (
источник

O

Oleg in Data Engineers
Раньше это все просто сыпалось в лог, поэтому лисенер не имел конструктор и стейт и мы его передавали через конф(фул квалифаед нейм)
источник
2019 December 12

МК

Михаил Королев in Data Engineers
Всем привет, у кого-то есть позитивный (или наоборот - негативный, т.е. использовал и бросил потому что...) опыт использования Atlas (2.x)? Я смотрел на 1.0 - там было уныло, 2.0 с лету не взлетел, думаю - стоит ли тратить энергию.
Задача - иметь место, где (теоретически) можно видеть метаданные по тому, что есть в Hadoop
источник

d

ddre_z in Data Engineers
привет, может кто знает бест практику по аггрегации категориальных переменных?
источник

M

Mi in Data Engineers
Roman
Нет. Не получилось. Перепробовал несколько вариантов - без успешно.
Проверял конфиги ярна - вроде бы все норм.
При этом я точно знаю, что это можно сделать, потому что:
1) на более старых версиях спарка(но не в emr) я так делал
2) так в документации написано)

Есть подозрение, что дело в emr. Так как страничка с executors  в spark ui не открывается)
Если что использую emr 5.25.

А вы в emr видели подобную ошибку?
Возможно вам будет интересно :тут недавно наткнулся на одну настройку, которая может быть причиной такого поведения с ядрами и контейнерами, дело не в yarn-site.xml, а в capacity-scheduler.xml - там есть настройка дефлотного калькулятора ресурсов, который использует для расчетов только память, игнорируя количество ядер. https://stackoverflow.com/questions/29964792/apache-hadoop-yarn-underutilization-of-cores
источник