Size: a a a

2020 September 02

K

KrivdaTheTriewe in Data Engineers
Андрей Жуков
Ого. От Датабриксов рассылки на русском пошли.
Что да рассылки
источник

DZ

Dmitry Zuev in Data Engineers
Mi
Кто-нибудь может знает тулу которая может помочь перегнать presto SQL в spark SQL? Или может есть какой документ со сравнением и разницей синтаксисов
источник

DZ

Dmitry Zuev in Data Engineers
Лапшин в свое время писал mysql -> pgsql
источник

DZ

Dmitry Zuev in Data Engineers
я бы не назвал это успехом
источник

DZ

Dmitry Zuev in Data Engineers
источник

M

Mi in Data Engineers
просто есть большая кодовая база на SQL, но при этом есть желание запускать это все на спарке
источник

R

Roman in Data Engineers
Mi
просто есть большая кодовая база на SQL, но при этом есть желание запускать это все на спарке
Как вариант udf с функциями, которые различаются в этих диалектах, написать. Но все - равно это полумера.
источник

ИК

Иван Калининский... in Data Engineers
Mi
просто есть большая кодовая база на SQL, но при этом есть желание запускать это все на спарке
Есть вариант расширить Spark SQL. Действия в общем такие:
1. Расширить парсер, спарк использует Antlr, в исходниках можно найти файл грамматик и классы, которые отвечают за его использование. В 2.3.0 файлов с классами было два. Грамматики придется освоить, или, в крайнем случае, прикрутить парсер-комбинаторы scala, такое видел в Carbon Data
2. Добавить правила в оптимизатор. Если раскурить, как выполняются существующие стейтменты, смотря в код и на сайт Яцека Лазковского jaceklaskowski.gitbooks.io, то можно добавить те, которых не хватает, в логический план, проанализированный логический план, оптимизированный план, физический план. Некоторые этапы не надо будет править, потому что выполнение пойдет через существующие классы/объекты
3. Зарегистрировать созданные правила и парсер как расширения через хук при создании спарксессии, есть пара статей, где это хорошо описано, в документации тоже есть. Самый радостный пункт ))
4. Все вышеперечисленное лучше сразу (или до реализации) покрывать тестами, потому что связей очень много и риск получить совсем не то, что хочется, крайне высок

Разработка всего перечисленного потребует много времени и напряжения разработчиков, подумайте, может несколько джунов перепишут SQL, и, если они будут продвинутыми джунами, сразу на Dataset API !
источник

M

Mi in Data Engineers
Иван Калининский
Есть вариант расширить Spark SQL. Действия в общем такие:
1. Расширить парсер, спарк использует Antlr, в исходниках можно найти файл грамматик и классы, которые отвечают за его использование. В 2.3.0 файлов с классами было два. Грамматики придется освоить, или, в крайнем случае, прикрутить парсер-комбинаторы scala, такое видел в Carbon Data
2. Добавить правила в оптимизатор. Если раскурить, как выполняются существующие стейтменты, смотря в код и на сайт Яцека Лазковского jaceklaskowski.gitbooks.io, то можно добавить те, которых не хватает, в логический план, проанализированный логический план, оптимизированный план, физический план. Некоторые этапы не надо будет править, потому что выполнение пойдет через существующие классы/объекты
3. Зарегистрировать созданные правила и парсер как расширения через хук при создании спарксессии, есть пара статей, где это хорошо описано, в документации тоже есть. Самый радостный пункт ))
4. Все вышеперечисленное лучше сразу (или до реализации) покрывать тестами, потому что связей очень много и риск получить совсем не то, что хочется, крайне высок

Разработка всего перечисленного потребует много времени и напряжения разработчиков, подумайте, может несколько джунов перепишут SQL, и, если они будут продвинутыми джунами, сразу на Dataset API !
Второй вариант выглядит куда реальнее)
источник

n

nikileg in Data Engineers
В другом чате посоветовали попробовать написать сюда)

"""
Привет 👋
Кто-нибудь имел опыт пользования либами spark-daria и spark-fast-test? Стоит ли их вообще пытаться вносить в проект чтобы не писать утилитные велосипеды? Есть какие-либо отзывы по ним?
Заранее спасибо! 😀
"""
источник

ПБ

Повелитель Бури... in Data Engineers
Доброй ночи! Подскажите пожалуйста: установил presto написал коннектор к базе, запустил через шел. И что? Как с ним работать дальше? Какие кейсы? С табло как то дружить?
источник

DZ

Dmitry Zuev in Data Engineers
Повелитель Бури
Доброй ночи! Подскажите пожалуйста: установил presto написал коннектор к базе, запустил через шел. И что? Как с ним работать дальше? Какие кейсы? С табло как то дружить?
Odbc например
источник
2020 September 03

АЖ

Андрей Жуков... in Data Engineers
Dmitry Zuev
Odbc например
источник

AZ

Anton Zadorozhniy in Data Engineers
Повелитель Бури
Доброй ночи! Подскажите пожалуйста: установил presto написал коннектор к базе, запустил через шел. И что? Как с ним работать дальше? Какие кейсы? С табло как то дружить?
Вы не доверяете документации? https://help.tableau.com/current/pro/desktop/en-us/examples_presto.htm
источник

AZ

Anton Zadorozhniy in Data Engineers
А про кейсы я вообще не понял, зачем вы его ставили если вам кейсы неизвестны?
источник

RY

Ruslan515 Y in Data Engineers
Добрый день. Вопрос по Elasticsearch. есть ip адрес и порт. как подлючится к БД? К примеру пробовал _es = Elasticsearch([{'host': 'xxx.xxx.xxx.xxx', 'port': 9200}]). но когда делаю _ex.ping() = False. Хотя через терминал делал ping = пишет что все ок.
источник

SM

Sanzhar Magzumov in Data Engineers
Привет
источник

SM

Sanzhar Magzumov in Data Engineers
Подскажите пожалуйста как скипнуть первую строку когда выводишь таблицу в спарке?
источник

AZ

Anton Zadorozhniy in Data Engineers
Sanzhar Magzumov
Подскажите пожалуйста как скипнуть первую строку когда выводишь таблицу в спарке?
А что для вас первая строка?
источник

SM

Sanzhar Magzumov in Data Engineers
Ничего не значащая первая строка, которую просто надо выкинуть
источник