Size: a a a

2019 November 27

AE

Alexey Evdokimov in Data Engineers
подход странноватый; можно удобнее, если есть какая-то обвязка. см. тж. mockito/powermockito
источник

R

Renarde in Data Engineers
Dmitry Tron
короче вечный спор свое против говнолиба с гитхаба
мы выбрали в пользу свое, потому что у нас еще есть S3 mock и Kafka mock и все вот это должно параллельно теститься, чтобы побыстрее было
источник

R

Renarde in Data Engineers
А в testing-base написано такое:
Make sure to disable parallel execution.

In sbt you can add:

parallelExecution in Test := false
In surefire make sure that forkCount is set to 1 and reuseForks is true.
источник

DM

Daniel Matveev in Data Engineers
Alexey Evdokimov
подход странноватый; можно удобнее, если есть какая-то обвязка. см. тж. mockito/powermockito
в дзяве возможно да, в скале мокитоидные штуки не сдались совсем
источник

AE

Alexey Evdokimov in Data Engineers
перехватывать вход тесткейса и проверять выход мокитовскими инструментами довольно удобно
источник

D

Dmitry Tron in Data Engineers
ну кстати да, у меня есть траблы с этой либой в мультипроекте с кучей тестов на спарке. Как раз таки приходится отклбючать параллельное выполение в сбт
источник

S

Stanislav in Data Engineers
Rustam Iksanov
Коллеги! Подскажите. Есть таблица в phoenix(5.0) hbase 2.0. фильтр вида column like 'х%' выдает условно 50 строк, фильтр вида column like 'х%' AND column2 = 'abc' выдает 100 строк. Обновление статистики делал. Вопрос, что не так с фениксом?
Посмотрел недавно в гит, 4 версия развивается, 5 после релиза замерла
источник

RI

Rustam Iksanov in Data Engineers
Stanislav
Посмотрел недавно в гит, 4 версия развивается, 5 после релиза замерла
Сборка hdp с версией не так просто играться. Вообще ситуация странная.
источник

S

Stanislav in Data Engineers
Rustam Iksanov
Сборка hdp с версией не так просто играться. Вообще ситуация странная.
Сам завис с багой. И ни туда, и ни сюда. Скорее было ошибкой выезжать на 5 :/
источник

RI

Rustam Iksanov in Data Engineers
Stanislav
Сам завис с багой. И ни туда, и ни сюда. Скорее было ошибкой выезжать на 5 :/
А что за баг?
источник

AS

Andrey Sutugin in Data Engineers
Aleksandr
Всем привет. Подскажите, чем пользуетесь для тестирования спарк приложений на скале. Есть ли какие-то альтернативы этому?
https://github.com/holdenk/spark-testing-base
Посмотрите в @moscowspark, там на последнем митапе был доклад о средствах тестирования, которые уже есть в спарке.
источник

AB

Alexey Belov in Data Engineers
Aleksandr
Всем привет. Подскажите, чем пользуетесь для тестирования спарк приложений на скале. Есть ли какие-то альтернативы этому?
https://github.com/holdenk/spark-testing-base
Если кто не видел, вот статьи Евгения Лопаткина,  где он рассказывает про unit-тестирование Spark-приложений (доклад был на Moscow Spark #9)
https://link.medium.com/ZpE5mjODX1 https://link.medium.com/DQL0LZVDX1
источник

AE

Alexey Evdokimov in Data Engineers
вообще, есть такой вопрос.

кто-нибудь заморачивался всерьёз с обвязками спарковских модулей, чтобы их можно было chain'ить в произвольном порядке?
источник

UD

Uncel Duk in Data Engineers
Anton Zadorozhniy
Пробовали bluestore?
Нет лабы, жду железо
источник

AZ

Anton Zadorozhniy in Data Engineers
Renarde
кстати вопрос - а minio (который типа opensource S3) - там такая же проблема с консистентностью?
Minio просто копирует протокол S3, это абсолютно не связанные реализации, и Minio не использует внутри eventual consisten систем (S3 использует Dynamo), так что такой проблемы нет, но и не скейлится так
источник

D

Dmitry Tron in Data Engineers
Alexey Evdokimov
вообще, есть такой вопрос.

кто-нибудь заморачивался всерьёз с обвязками спарковских модулей, чтобы их можно было chain'ить в произвольном порядке?
речь не о transform[U](t: (Dataset[T]) ⇒ Dataset[U]): Dataset[U] ? мб не так понял
источник

AZ

Anton Zadorozhniy in Data Engineers
Mikhail
Беда. Если найдешь красивое решение - черкни.
stretched HDFS кластер видел у людей
источник

AE

Alexey Evdokimov in Data Engineers
Dmitry Tron
речь не о transform[U](t: (Dataset[T]) ⇒ Dataset[U]): Dataset[U] ? мб не так понял
скажем, у меня 50 неких трансформов, у каждого десятка по два настроек, и я хочу нарисовать из них некий процесс. примерно как в визио. на вход подать десяток источников сырых данных, а на выходе получить пару сотен датасетов
источник

AE

Alexey Evdokimov in Data Engineers
нажать кнопочку, запустить в емр кластер, посчитать, и так — по необходимости
источник

AE

Alexey Evdokimov in Data Engineers
какой-то такой lo-fi concept:
источник