Телеграмм чат группы hadoopusers страница 2704

Есть вариант расширить Spark SQL. Действия в общем такие:
1. Расширить парсер, спарк использует Antlr, в исходниках можно найти файл грамматик и классы, которые отвечают за его использование. В 2.3.0 файлов с классами было два. Грамматики придется освоить, или, в крайнем случае, прикрутить парсер-комбинаторы scala, такое видел в Carbon Data
2. Добавить правила в оптимизатор. Если раскурить, как выполняются существующие стейтменты, смотря в код и на сайт Яцека Лазковского jaceklaskowski.gitbooks.io, то можно добавить те, которых не хватает, в логический план, проанализированный логический план, оптимизированный план, физический план. Некоторые этапы не надо будет править, потому что выполнение пойдет через существующие классы/объекты
3. Зарегистрировать созданные правила и парсер как расширения через хук при создании спарксессии, есть пара статей, где это хорошо описано, в документации тоже есть. Самый радостный пункт ))
4. Все вышеперечисленное лучше сразу (или до реализации) покрывать тестами, потому что связей очень много и риск получить совсем не то, что хочется, крайне высок

Разработка всего перечисленного потребует много времени и напряжения разработчиков, подумайте, может несколько джунов перепишут SQL, и, если они будут продвинутыми джунами, сразу на Dataset API !

источник

19:57пожаловаться #8

M

Mi in Data Engineers

Иван Калининский

Есть вариант расширить Spark SQL. Действия в общем такие:
1. Расширить парсер, спарк использует Antlr, в исходниках можно найти файл грамматик и классы, которые отвечают за его использование. В 2.3.0 файлов с классами было два. Грамматики придется освоить, или, в крайнем случае, прикрутить парсер-комбинаторы scala, такое видел в Carbon Data
2. Добавить правила в оптимизатор. Если раскурить, как выполняются существующие стейтменты, смотря в код и на сайт Яцека Лазковского jaceklaskowski.gitbooks.io, то можно добавить те, которых не хватает, в логический план, проанализированный логический план, оптимизированный план, физический план. Некоторые этапы не надо будет править, потому что выполнение пойдет через существующие классы/объекты
3. Зарегистрировать созданные правила и парсер как расширения через хук при создании спарксессии, есть пара статей, где это хорошо описано, в документации тоже есть. Самый радостный пункт ))
4. Все вышеперечисленное лучше сразу (или до реализации) покрывать тестами, потому что связей очень много и риск получить совсем не то, что хочется, крайне высок

Разработка всего перечисленного потребует много времени и напряжения разработчиков, подумайте, может несколько джунов перепишут SQL, и, если они будут продвинутыми джунами, сразу на Dataset API !

Второй вариант выглядит куда реальнее)

источник

20:13пожаловаться #9

n

nikileg in Data Engineers

В другом чате посоветовали попробовать написать сюда)

"""
Привет 👋
Кто-нибудь имел опыт пользования либами spark-daria и spark-fast-test? Стоит ли их вообще пытаться вносить в проект чтобы не писать утилитные велосипеды? Есть какие-либо отзывы по ним?
Заранее спасибо! 😀
"""

источник

23:05пожаловаться #10

ПБ

Повелитель Бури... in Data Engineers

Доброй ночи! Подскажите пожалуйста: установил presto написал коннектор к базе, запустил через шел. И что? Как с ним работать дальше? Какие кейсы? С табло как то дружить?

источник

23:46пожаловаться #11

DZ

Dmitry Zuev in Data Engineers

Повелитель Бури

Доброй ночи! Подскажите пожалуйста: установил presto написал коннектор к базе, запустил через шел. И что? Как с ним работать дальше? Какие кейсы? С табло как то дружить?

Odbc например

источник

23:47пожаловаться #12

2020 September 03

АЖ

Андрей Жуков... in Data Engineers

Odbc например

10:08пожаловаться #13

AZ

Anton Zadorozhniy in Data Engineers

Повелитель Бури

Доброй ночи! Подскажите пожалуйста: установил presto написал коннектор к базе, запустил через шел. И что? Как с ним работать дальше? Какие кейсы? С табло как то дружить?

Вы не доверяете документации? https://help.tableau.com/current/pro/desktop/en-us/examples_presto.htm

источник

10:13пожаловаться #14

AZ

Anton Zadorozhniy in Data Engineers

А про кейсы я вообще не понял, зачем вы его ставили если вам кейсы неизвестны?

источник

10:14пожаловаться #15

RY

Ruslan515 Y in Data Engineers

Добрый день. Вопрос по Elasticsearch. есть ip адрес и порт. как подлючится к БД? К примеру пробовал _es = Elasticsearch([{'host': 'xxx.xxx.xxx.xxx', 'port': 9200}]). но когда делаю _ex.ping() = False. Хотя через терминал делал ping = пишет что все ок.

источник

10:55пожаловаться #16

SM

Sanzhar Magzumov in Data Engineers

Привет

источник

12:45пожаловаться #17

SM

Sanzhar Magzumov in Data Engineers

Подскажите пожалуйста как скипнуть первую строку когда выводишь таблицу в спарке?

источник

12:46пожаловаться #18