Size: a a a

2020 October 16

A

Alex in Data Engineers
например если данные нужно по разным стейджам перегонять в пределах одного Redshift  - dbt хороший кандидат для этого?
источник

A

Alex in Data Engineers
тоесть смысл dbt в том, что она берет на себя всю рутину по созданию таблиц и вьюх а инженер фокусируется только на бизнес логике трансформаций которую описывает чередой селектов?
источник

А

Алексей in Data Engineers
Алексей
подскажите, если через spark.jdbc запущена долгая выгрузка в 1 сессию, то где можно посмотреть, сколько уже скачалось? Может в hdfs tmp целевой таблицы где то файл создается?
вот если я хочу разобраться в какой то части спарка (https://github.com/apache/spark), а ответа в гугле не нахожу. Как мне сориентировать в исходниках спарка, чтобы посмотреть это там? К примеру, как тут, интересует часть, где происходит запись данных из jdbc
источник

N

Nikita Blagodarnyy in Data Engineers
Алексей
подскажите, если через spark.jdbc запущена долгая выгрузка в 1 сессию, то где можно посмотреть, сколько уже скачалось? Может в hdfs tmp целевой таблицы где то файл создается?
в хистори сервере.
источник

А

Алексей in Data Engineers
Nikita Blagodarnyy
в хистори сервере.
это в spark application ui? у меня там показывается объем и число строк, только после завершение, но не во время работы
источник

SS

Sergey Sheremeta in Data Engineers
Алексей
вот если я хочу разобраться в какой то части спарка (https://github.com/apache/spark), а ответа в гугле не нахожу. Как мне сориентировать в исходниках спарка, чтобы посмотреть это там? К примеру, как тут, интересует часть, где происходит запись данных из jdbc
склонировать github-репозитории себе.
открыть репозиторий в Idea.
сделать чекаут интересующей версии/тега
прошаривать код
(опционально прошаривать Scala)
источник

ME

Max Efremov in Data Engineers
Sergey Sheremeta
склонировать github-репозитории себе.
открыть репозиторий в Idea.
сделать чекаут интересующей версии/тега
прошаривать код
(опционально прошаривать Scala)
Можно прям на гитхабе даже
источник

А

Алексей in Data Engineers
Sergey Sheremeta
склонировать github-репозитории себе.
открыть репозиторий в Idea.
сделать чекаут интересующей версии/тега
прошаривать код
(опционально прошаривать Scala)
А как понять в который файл смотреть, если нет эксепшена с именем класса?
источник

А

Алексей in Data Engineers
Стек трейс чтоли во время работы снимать?
источник

SS

Sergey Sheremeta in Data Engineers
Max Efremov
Можно прям на гитхабе даже
а как  без Control-B быстро бегать между классами/методами?
источник

ME

Max Efremov in Data Engineers
Sergey Sheremeta
а как  без Control-B быстро бегать между классами/методами?
Мышкой тыкать файлики))
источник

SS

Sergey Sheremeta in Data Engineers
Алексей
А как понять в который файл смотреть, если нет эксепшена с именем класса?
сделайте сами эксепшон - пишите в несуществующую таблицу, предварительно выставив
sc.setLogLevel("DEBUG")
источник

SS

Sergey Sheremeta in Data Engineers
и я очень советую прошаривать спрак через его тесты
источник

А

Алексей in Data Engineers
Sergey Sheremeta
и я очень советую прошаривать спрак через его тесты
Это как? Не очень понял
источник

GP

Grigory Pomadchin in Data Engineers
Алексей
вот если я хочу разобраться в какой то части спарка (https://github.com/apache/spark), а ответа в гугле не нахожу. Как мне сориентировать в исходниках спарка, чтобы посмотреть это там? К примеру, как тут, интересует часть, где происходит запись данных из jdbc
интуиция по ключевым словам
источник

GP

Grigory Pomadchin in Data Engineers
источник

SS

Sergey Sheremeta in Data Engineers
Алексей
Это как? Не очень понял
да я сам залетный тут, просто читал как "отцы" говорили по тестам изучать функциональность
источник

А

Алексей in Data Engineers
Спасиб, в общем понял, что серебряной пули нет
источник

GP

Grigory Pomadchin in Data Engineers
нету ни для какого проекта
источник

АЖ

Андрей Жуков... in Data Engineers
да и в жизни
источник