Size: a a a

2020 August 07

A

Alex in Data Engineers
Привет! Мне нужно экспортировать данные из старого onprem PostgreSQL сервера и так же слушать все новые обновления данных и пересылать их в новую систему. При этом мне нужно на лету конвертировать данные в новую схему. Тоесть On prem Postgres -> transform -> AWS RDS for PostgreSQL. Стоит это реализовать на Debezium или существуют более подходящие инструменты для такого рода задачи?
источник

ND

Nurdinov Denis in Data Engineers
Добрый день. Не подскажите а repartition в sparke способен дублировать данные?
источник

N

Nikolay in Data Engineers
Nurdinov Denis
Добрый день. Не подскажите а repartition в sparke способен дублировать данные?
В качестве бонуса , так сказать ). Если дублирует , то это баг, но лучше перепроверьте нет ли у вас входящих дублей
источник

AS

Andrey Smirnov in Data Engineers
Nurdinov Denis
Добрый день. Не подскажите а repartition в sparke способен дублировать данные?
нет
источник

ND

Nurdinov Denis in Data Engineers
Ок. Спасибо
источник

K

KrivdaTheTriewe in Data Engineers
Переслано от Анна Юнчик
20 августа в 20:00 (мск) приглашаем на бесплатный вебинар “Качество данных в DWH - консистентность хранилища данных”. Запишитесь https://otus.pw/L0bta/
источник

K

KrivdaTheTriewe in Data Engineers
‼️Самое важное в Data Engineers Group‼️

🔹20 августа в 20:00 (мск) приглашаем на бесплатный вебинар “Качество данных в DWH - консистентность хранилища данных”.

Запишитесь https://otus.pw/L0bta/

🔹 Spark 3 ⚡️
https://spark.apache.org/releases/spark-release-3-0-0.html

В следующую пятницу в 19:00 по Москве проведём Дзен-митап в онлайн-формате. Поговорим, как видеоконтент захватывает Яндекс.Дзен и как совмещают контент с разными типами монетизации в рекомендациях ivi. А ещё о современном глубинном обучении: ребята из службы компьютерного зрения Яндекса расскажут, как детектируют смену сюжетных сцен и делают другую сложную аналитику на видео.

Регистрация и описание докладов. В обмен на регистрацию придёт файлик для календаря и напоминание в день трансляции.

🔹 Spark Kotlin API

Привет всем!
JetBrains рады представить Spark API для Kotlin, над которым мы долгое время работали: https://github.com/JetBrains/kotlin-spark-api.

Сейчас API находится на стадии beta-тестирования, но мы планируем сделать PR в официальный репозиторий Apache Spark, поэтому нам очень нужен фидбек, чтобы PR отражал не только наше понимание того, что нужно, но также учитывал пожелания конечных пользователей.

Чем хорош Kotlin Spark API? Хотя вы уже давно можете использовать Java API из Kotlin, Kotlin Spark API даёт вам доступ к API, более напоминающий Scala, чем Kotlin, а также даёт вам использовать удобные штуки типа дата классов и лямбд.

Кроме того, Kotlin Spark API добавляет несколько удобных extension функций вроде withCached, которая даёт вам возможность вызывать произвольные конвейеры обработки на датасете без необходимости несколько раз пересчитывать данные, а также без страха забыть вызвать на этих данных unpersist.
Kotlin Spark API добавляет возможность работать с неименованными кортжами с помощью функции c(). Более того, их даже можно складывать как в Python!

Посмотреть quick start с использованием Maven или Gradle можно тут: https://github.com/JetBrains/kotlin-spark-api/blob/master/docs/quick-start-guide.md

А несколько разнообразных примеров использования тут: https://github.com/JetBrains/kotlin-spark-api/tree/master/examples/src/main/kotlin/org/jetbrains/spark/api/examples

Попробуйте и поделитесь своим мнением с нами в канале #kotlin-spark, или в GitHub Issues: https://github.com/JetBrains/kotlin-spark-api/issues.

По вопросам в чате можно пинать @asm0dey
источник

N

Nick in Data Engineers
Всем привет. Кто что используется для unit тестирования scala+spark, может есть хорошая статейка на этот счет или из опыта?
источник

GP

Grigory Pomadchin in Data Engineers
Nick
Всем привет. Кто что используется для unit тестирования scala+spark, может есть хорошая статейка на этот счет или из опыта?
любой (Скала) тест фреймворк используй
источник

T

T in Data Engineers
Nick
Всем привет. Кто что используется для unit тестирования scala+spark, может есть хорошая статейка на этот счет или из опыта?
scalatest
источник

GP

Grigory Pomadchin in Data Engineers
нет принципиальных проблем каких-то
источник

ПБ

Повелитель Бури... in Data Engineers
Салют! Испльзую cdh 6 добавил ноды в  кластер запустил parcels и уже 3 день дистрибьютит. Как узнать еще ему долго? ) спасибо
источник

EM

Egor Mateshuk in Data Engineers
не может работать так долго. на всех нодах залипло или на одной?
источник

ПБ

Повелитель Бури... in Data Engineers
На  4/4 download и 0/4 disrtibuted
источник

EM

Egor Mateshuk in Data Engineers
посмотрите логи агента на нодах (должно быть где-то типа /var/log/cloudera-scm-agent/cloudera-scm-agent.log), возможно, там будут видны ошибки сетевых соединений
источник

ПБ

Повелитель Бури... in Data Engineers
Спасибо, щас попробуем
источник

АВ

Алексей Васин... in Data Engineers
Всем привет, а нету случайно чатика по apache solr?
источник

AG

Alexander Goncharov in Data Engineers
Привет, активных нет. Давайте сделаем.
источник

AG

Alexander Goncharov in Data Engineers
Создал группу, если есть вопросы спрашивайте.
источник

SI

Sergey Ivanychev in Data Engineers
А меня интересует по Apache Flink
источник