Телеграмм чат группы hadoopusers страница 1823

Size: a a a

Data Engineers

1724 membersпожаловаться на группу

2019 November 27

Alexey Evdokimov in Data Engineers

подход странноватый; можно удобнее, если есть какая-то обвязка. см. тж. mockito/powermockito

источник

19:05пожаловаться #1

Renarde in Data Engineers

Dmitry Tron

короче вечный спор свое против говнолиба с гитхаба

мы выбрали в пользу свое, потому что у нас еще есть S3 mock и Kafka mock и все вот это должно параллельно теститься, чтобы побыстрее было

источник

19:06пожаловаться #2

Renarde in Data Engineers

А в testing-base написано такое:

Make sure to disable parallel execution.

In sbt you can add:

parallelExecution in Test := false
In surefire make sure that forkCount is set to 1 and reuseForks is true.

источник

19:06пожаловаться #3

Daniel Matveev in Data Engineers

Alexey Evdokimov

подход странноватый; можно удобнее, если есть какая-то обвязка. см. тж. mockito/powermockito

в дзяве возможно да, в скале мокитоидные штуки не сдались совсем

источник

19:07пожаловаться #4

Alexey Evdokimov in Data Engineers

перехватывать вход тесткейса и проверять выход мокитовскими инструментами довольно удобно

источник

19:08пожаловаться #5

Dmitry Tron in Data Engineers

ну кстати да, у меня есть траблы с этой либой в мультипроекте с кучей тестов на спарке. Как раз таки приходится отклбючать параллельное выполение в сбт

источник

19:08пожаловаться #6

Stanislav in Data Engineers

Rustam Iksanov

Коллеги! Подскажите. Есть таблица в phoenix(5.0) hbase 2.0. фильтр вида column like 'х%' выдает условно 50 строк, фильтр вида column like 'х%' AND column2 = 'abc' выдает 100 строк. Обновление статистики делал. Вопрос, что не так с фениксом?

Посмотрел недавно в гит, 4 версия развивается, 5 после релиза замерла

источник

19:08пожаловаться #7

Rustam Iksanov in Data Engineers

Stanislav

Посмотрел недавно в гит, 4 версия развивается, 5 после релиза замерла

Сборка hdp с версией не так просто играться. Вообще ситуация странная.

источник

19:10пожаловаться #8

Stanislav in Data Engineers

Rustam Iksanov

Сборка hdp с версией не так просто играться. Вообще ситуация странная.

Сам завис с багой. И ни туда, и ни сюда. Скорее было ошибкой выезжать на 5 :/

источник

19:11пожаловаться #9

Rustam Iksanov in Data Engineers

Stanislav

Сам завис с багой. И ни туда, и ни сюда. Скорее было ошибкой выезжать на 5 :/

А что за баг?

источник

19:12пожаловаться #10

Andrey Sutugin in Data Engineers

Aleksandr

Всем привет. Подскажите, чем пользуетесь для тестирования спарк приложений на скале. Есть ли какие-то альтернативы этому?
https://github.com/holdenk/spark-testing-base

Посмотрите в @moscowspark, там на последнем митапе был доклад о средствах тестирования, которые уже есть в спарке.

источник

19:12пожаловаться #11

Alexey Belov in Data Engineers

Aleksandr

Если кто не видел, вот статьи Евгения Лопаткина, где он рассказывает про unit-тестирование Spark-приложений (доклад был на Moscow Spark #9)
https://link.medium.com/ZpE5mjODX1 https://link.medium.com/DQL0LZVDX1

Medium

Apache Spark Unit Testing Part 1 — Core Components

This article is about how to use own Spark repository classes for Unit Testing and pretend to fill the gap between code and documentation…

источник

19:13пожаловаться #12

Alexey Evdokimov in Data Engineers

вообще, есть такой вопрос.

кто-нибудь заморачивался всерьёз с обвязками спарковских модулей, чтобы их можно было chain'ить в произвольном порядке?

источник

19:14пожаловаться #13

Uncel Duk in Data Engineers

Anton Zadorozhniy

Пробовали bluestore?

Нет лабы, жду железо

источник

19:15пожаловаться #14

Anton Zadorozhniy in Data Engineers

Renarde

кстати вопрос - а minio (который типа opensource S3) - там такая же проблема с консистентностью?

Minio просто копирует протокол S3, это абсолютно не связанные реализации, и Minio не использует внутри eventual consisten систем (S3 использует Dynamo), так что такой проблемы нет, но и не скейлится так

источник

19:17пожаловаться #15

Dmitry Tron in Data Engineers

Alexey Evdokimov

речь не о transform[U](t: (Dataset[T]) ⇒ Dataset[U]): Dataset[U] ? мб не так понял

источник

19:20пожаловаться #16

Anton Zadorozhniy in Data Engineers

Mikhail

Беда. Если найдешь красивое решение - черкни.

stretched HDFS кластер видел у людей

источник

19:20пожаловаться #17

Alexey Evdokimov in Data Engineers

Dmitry Tron

речь не о transform[U](t: (Dataset[T]) ⇒ Dataset[U]): Dataset[U] ? мб не так понял

скажем, у меня 50 неких трансформов, у каждого десятка по два настроек, и я хочу нарисовать из них некий процесс. примерно как в визио. на вход подать десяток источников сырых данных, а на выходе получить пару сотен датасетов

источник

19:24пожаловаться #18

Alexey Evdokimov in Data Engineers

нажать кнопочку, запустить в емр кластер, посчитать, и так — по необходимости

источник

19:25пожаловаться #19

Alexey Evdokimov in Data Engineers

какой-то такой lo-fi concept:

источник

19:28пожаловаться #20