Size: a a a

2019 October 25

A

Alex in Data Engineers
Что-то не пойму, вы хотите иметь престо тест, но чтобы это не утекло в класлоадер спарка?
источник

OO

Oleksandr Olgashko in Data Engineers
Grigory Pomadchin
Spark 3.0 превью RC релизы уже стали выкатываться https://github.com/apache/spark/releases (https://github.com/apache/spark/releases/tag/v3.0.0-preview-rc1)
а есть краткий обзор новых фич?
источник

R

Renarde in Data Engineers
Alex
Что-то не пойму, вы хотите иметь престо тест, но чтобы это не утекло в класлоадер спарка?
да, именно так
источник

A

Alex in Data Engineers
В одном и том же модуле?
источник

R

Renarde in Data Engineers
в тестах к одному и тому же модулю, если быть точным
источник

A

Alex in Data Engineers
Нельзя
источник

A

Alex in Data Engineers
Ни в мейвен, ни в сбт, ни ещё где либо
источник

N

Nikita Blagodarnyy in Data Engineers
А если ненужную зависимость в дочернем проекте указать явно, но со скоупом compile? Она ж вроде тогда не должна в jar попасть.
источник

A

Alex in Data Engineers
@nblagodarnyy он же говорит тесты в одном модуле

Одному тесту нужна зависимость

Второму не должна быть

Если разнести тесты по разным модулям то можно разрулить, а вот в пределах одного я не представляю как
источник

R

Renarde in Data Engineers
все равно, просачивается, даже с compile.
У меня получается структура такая:
есть главный проект - presto, в нем есть тестовые зависимости, в которые входит spark и presto-tests.
Есть отдельный модуль presto-tests, в котором висит зависимость на io.prestosq.hadoop
Если из модуля presto я указываю зависимость на presto-tests:
<dependency>
 <groupId>
group</groupId>
 <artifactId>presto-tests</artifactId>
 <version>${project.version}</version>
 <scope>test</scope>
</dependency>

То PrestoSupport запускается нормально, но спарк падает с ошибкой из за смешения классов.
Если из модуля presto я указываю зависимость на presto-tests, но делаю exclusion на prestosql.hadoop, тест не запускается потому что нехватает этой зависимости
источник

A

Alex in Data Engineers
Что мешает тесты разнести на те где нужно PrestoSupport и на те где не нужно?
источник

R

Renarde in Data Engineers
так у нас только один тест, в котором нужно и PrestoSupport и SparkSupport, потому что тестируется следующая логика:
- запускается embedded s3
- запускается spark
- запускается embedded presto
И затем тестируется следующее:
- через Spark мы пишем в s3 данные
- натягиваем на них presto таблицу
- делаем в нее селект
источник

A

Alex in Data Engineers
О, даже так, вы хотите в одно тесте и чтобы было и чтобы не было :)
источник

R

Renarde in Data Engineers
ну вот как-то да 🙂
тестируются же как-то интеграционные взаимодействия локально…
источник

A

Alex in Data Engineers
В jigsaw хоть layout подвезли :) но в вашем случае даже оно слабо спасет
источник

A

Alex in Data Engineers
В разных процессах
источник

A

Alex in Data Engineers
И запуская не само тривиально
источник

R

Renarde in Data Engineers
не хочется просто раскручивать testcontainers под это дело, потому что они очень долго запускаются, тесты по 10 минут получаются
источник

A

Alex in Data Engineers
Ну так на то они и интеграционные
источник

SB

Stas Batururimi in Data Engineers
Всем привет.
Возможно кто-то подскажет.
Суть в том,что нужно в powerBi показывать данные,а данные берутся из Hive таблицы. Нужно чтобы колонки имели русское название,но они как много места занимают,так и символов больше 80,а ограничение где-то 60 символов. Всякие мепинги на другие таблицы(где значения - русские названия колонок,а в исходной заменили например на x1, x2,...),не решают проблему,так как на этапе отображения желаемые колонки на русском hive ругается. Как быть?
источник