Size: a a a

2020 December 15

AZ

Anton Zadorozhniy in Data Engineers
Sergey Sheremeta
а может действительно, пусть два разных черпаря работают. по разным сторонам реки
Это правильный ответ
источник

AZ

Anton Zadorozhniy in Data Engineers
Ну и надо точно знать что вам это нужно, средний слой который наполняется стримом, т.к. реконсиляция батча и стрима это long term очень неприятно, проще выкидывать потоковые агрегаты и замещать их нагоняющими батчевыми (суть паттерна лямбда архитектуры)
источник

e

er@essbase.ru in Data Engineers
источник

SS

Sergey Sheremeta in Data Engineers
не могу найти запись Спарк-митапа, где как раз Евгений Лопаткин классно рассказывал по тестирование Спарк-заданий…
источник

AZ

Anton Zadorozhniy in Data Engineers
Дамы и господа, а попадался кому-то в открытом виде датасет продаж в  какой-нибудь российской fmcg рознице, на уровне категории и региона?
источник

NB

Nikita Bakanchev in Data Engineers
ну кстати там не то, чтобы явно разобрано как тестировать спарк приложеения имхо
источник

NB

Nikita Bakanchev in Data Engineers
только часть с трансформациями
источник

АР

Андрей Романов... in Data Engineers
Ещё есть такая полезная либа, как https://github.com/holdenk/spark-testing-base

в ней embedded spark, что позволяет легко работать  с SparkSession, как мне показалось (правда, там только ScalaTest поддерживается)
источник

AS

Andrey Smirnov in Data Engineers
Sergey Sheremeta
не могу найти запись Спарк-митапа, где как раз Евгений Лопаткин классно рассказывал по тестирование Спарк-заданий…
мы делаем через testcontainers
источник

АЖ

Андрей Жуков... in Data Engineers
Sergey Sheremeta
не могу найти запись Спарк-митапа, где как раз Евгений Лопаткин классно рассказывал по тестирование Спарк-заданий…
@invade_r у тя наверняка в закладках :)
источник

E

Eugene in Data Engineers
источник

E

Eugene in Data Engineers
Интеграционное тестирование.
источник

E

Eugene in Data Engineers
YouTube
Moscow Spark #9
Spark + AI Summit Europe 2019. Как это было?

Павел Клеменков, Chief Data Scientist (Data Platform) @ NVIDIA
Андрей Титов, Senior Spark Engineer @ NVIDIA
Андрей Жуков, Главный инженер данных @ С7 Техлаб
Алексей Белов, Тимлид @ Сбербанк

В середине октября в Амстердаме прошел Spark + AI Summit. Конференция по Apache Spark, собравшая почти 2500 участников и докладчиков. Мы расскажем, как это было, сделав обзор наиболее понравившихся докладов.

Apache Spark Unit Testing

Евгений Лопаткин, Data Engineer @ Tele2

Прошло 5 лет с момента первого релиза Apache Spark. Тем не менее, в официальной документации по-прежнему отсутствует раздел Unit Testing. Конечно, это не значит, что код Spark не тестируется перед релизом. Более того, Apache Spark имеет обширный фреймворк для юнит тестирования, о котором Spark Commiters не успели рассказать в документации. О нем мы и поговорим.

Автоматизация жизненного цикла ML моделей

Лев Рагулин, Руководитель разработки платформы ML @ One Factor

Я поделюсь как в One Factor решаются…
источник

E

Eugene in Data Engineers
Юнит тестирование
источник

E

Eugene in Data Engineers
Ответ на стек оверфлоу...
источник

E

Eugene in Data Engineers
источник

E

Eugene in Data Engineers
И статейки в медиуме...
источник

E

Eugene in Data Engineers
источник

E

Eugene in Data Engineers
источник

E

Eugene in Data Engineers
источник