Size: a a a

2019 November 19

Ik

Ilia ksen in Data Engineers
Anton Shelin
можно перед пивотом тогда сделать filter(col("axisNum")<9)
Спасибо, попробую)
источник
2019 November 20

OP

O. Petr in Data Engineers
Max Efremov
+---+----------+------------------+---------+--------------+--------------+-----------------+
| id| timestamp|previous_timestamp|time_diff|is_new_session|session_number|session_time_diff|
+---+----------+------------------+---------+--------------+--------------+-----------------+
|  1|1573820575|              null|        0|             0|             0|                0|
|  2|1573820580|        1573820575|        5|             0|             0|                5|
|  3|1573820600|        1573820580|       20|             0|             0|               20|
|  4|1573820603|        1573820600|        3|             0|             0|                3|
|  5|1573820703|        1573820603|      100|             1|             1|                0|
|  6|1573820713|        1573820703|       10|             0|             1|               10|
+---+----------+------------------+---------+--------------+--------------+-----------------+
больше чем 2 сессии не посчитает по условию )
 .withColumn("session_number", lag(col("is_new_session"), default=0).over(previous_window) + col("is_new_session"))
источник

AS

Anton Shelin in Data Engineers
O. Petr
больше чем 2 сессии не посчитает по условию )
 .withColumn("session_number", lag(col("is_new_session"), default=0).over(previous_window) + col("is_new_session"))
если у вас col("is_new_session") это 1 если новая ссесия и 0 если нет то сделайте sum(col("is_new_session")).over(Window....)
источник

M

Mikhail in Data Engineers
Всем, привет! Кто-нибудь игрался с Amundsen от Lyft? Выглядит все более и более зрело. https://eng.lyft.com/open-sourcing-amundsen-a-data-discovery-and-metadata-platform-2282bb436234
источник

AZ

Anton Zadorozhniy in Data Engineers
Mikhail
Всем, привет! Кто-нибудь игрался с Amundsen от Lyft? Выглядит все более и более зрело. https://eng.lyft.com/open-sourcing-amundsen-a-data-discovery-and-metadata-platform-2282bb436234
у меня часть работы - смотреть и играться с дата гавернанс тулами когда они появляются и развиваются, Амундсен не самый плохой, но поражен проблемой общей с многими другими тулами - трудно расширяется модель метаданных
источник

AZ

Anton Zadorozhniy in Data Engineers
так что если вам нужно только таблицы описывать - подойдет, но если вы смотрите на end-to-end lineage для большого зоопарка - будут трудности
источник

M

Mikhail in Data Engineers
Anton Zadorozhniy
у меня часть работы - смотреть и играться с дата гавернанс тулами когда они появляются и развиваются, Амундсен не самый плохой, но поражен проблемой общей с многими другими тулами - трудно расширяется модель метаданных
Так там же вроде графовая модель - добавляй что хочешь? Правда ниже в кишки API пока не спускался - может там не все так просто с кастомизацией?)
источник

AZ

Anton Zadorozhniy in Data Engineers
Mikhail
Так там же вроде графовая модель - добавляй что хочешь? Правда ниже в кишки API пока не спускался - может там не все так просто с кастомизацией?)
форком фреймворка только, расширения на ходу (как в атласе) или плагинами нет
источник

A

Alex in Data Engineers
это же питон =) докинул монкейпатчингом что тебе нужно и все дела
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
это же питон =) докинул монкейпатчингом что тебе нужно и все дела
золотые слова
источник

DM

Daniel Matveev in Data Engineers
Alex
это же питон =) докинул монкейпатчингом что тебе нужно и все дела
р.и.п.
источник

M

Mikhail in Data Engineers
Anton Zadorozhniy
форком фреймворка только, расширения на ходу (как в атласе) или плагинами нет
К нему можно и атлас прикрутить вместо neo4j для метадата слоя
источник

M

Mikhail in Data Engineers
Вообще там ребятки из банчига ING много чего законтибтютили в последнее время, чтобы эта штука была пригодна не только для Lyft
источник

AZ

Anton Zadorozhniy in Data Engineers
Mikhail
К нему можно и атлас прикрутить вместо neo4j для метадата слоя
чтобы харвестить те же самые таблицы, там интеграция прибита к типу ассета
источник

AZ

Anton Zadorozhniy in Data Engineers
в качестве примера нам надо описать такой флоу: приложение "черный ящик" (но его надо зарегистрировать) пушит в кафку в авро, потом флинк делает из этого пачку топиков с нужными событиями и обновляет кассандровую таблицу, и все это потребляет датасервис смотрящий в мир доменным grpc - что из этого можно завести в амундсен?
источник

M

Mikhail in Data Engineers
В стоковый мало что, но опять же форкнуть и кастомизировать под себя модель метаданных + написать свои экстракторы.
источник

DM

Daniel Matveev in Data Engineers
форк - это дорога в ад

скорость путешествия при этом заваисит от масштабов распространения в процессах
источник

AZ

Anton Zadorozhniy in Data Engineers
Daniel Matveev
форк - это дорога в ад

скорость путешествия при этом заваисит от масштабов распространения в процессах
сегодня прям день изречений "на века", адски плюсую
источник

AZ

Anton Zadorozhniy in Data Engineers
это тот случай когда если вам надо (а не просто "потому что архитектор сказал") - то проще написать самим, или взять что-то вроде Атласа если вам нужны его плюшки
источник

DM

Daniel Matveev in Data Engineers
по началу все ок, задача текущая решена

но с апдейтами начнется, что там кишочки подправили у оригинала, или добавили то ради чего форк делался, но выглядит оно совсем по другому
источник