Size: a a a

2020 August 17

Ж

Жмака in Data Engineers
Вопрос только будет ли возможность делать импорт implicits когда есть бифор
источник

DZ

Dmitry Zuev in Data Engineers
Жмака
Всем привет. Новичок в скале 😇Не могу победить сериализацию. Создал тест класс с junit, в @before определил sparkSession, в тестовом методе нужно создать dataset из sequence с тестовыми даннымми. Создает датасет с одной колонкой value с бинарными данными. Имплиситс не могу прописать, потому что sparkSession определена в @before. Как правильно сделать? Пробовал энкодер сделать но видно "руки кривые" или туплю🙂
Какой Спарк? Мб сразу взять тесткит?
источник

Ж

Жмака in Data Engineers
2.4.5
источник

DZ

Dmitry Zuev in Data Engineers
Мда, вроде тест кит к 2.4 не подтянули.

Но я бы просто сделал функции для тестов SparkSession => Unit
источник

DZ

Dmitry Zuev in Data Engineers
Ну и не использовал junit
источник

R

Renarde in Data Engineers
Жмака
Вопрос только будет ли возможность делать импорт implicits когда есть бифор
возможно вот так:

test("other-test") {
 val context = spark.sqlContext
 import context.implicits._
}
источник

R

Renarde in Data Engineers
я не гарантирую что это 100% best practice и наверное люди с невероятно высокими познаниями в Scala раскритикуют этот подход, но я знаю что он работает
источник

AS

Andrey Smirnov in Data Engineers
Renarde
я не гарантирую что это 100% best practice и наверное люди с невероятно высокими познаниями в Scala раскритикуют этот подход, но я знаю что он работает
+1
можно как написали выше через loan pattern (вроде так называется), но имхо это не нужно украшение
источник

Ж

Жмака in Data Engineers
Dmitry Zuev
Ну и не использовал junit
А что в нем не так?
источник

Ж

Жмака in Data Engineers
Renarde
я не гарантирую что это 100% best practice и наверное люди с невероятно высокими познаниями в Scala раскритикуют этот подход, но я знаю что он работает
В scala user group мне также предложили вынести спарк сессию из бифор. В этом случае импот implocits сработал. Я оставил только афтер для закрытия сессии
источник

DZ

Dmitry Zuev in Data Engineers
Ну в том что для скалы есть что-то поудобнее
источник

SS

Sergey Sheremeta in Data Engineers
коллеги, добрый день!
подскажите, есть смысл включать опцию YARN "yarn.nodemanager.linux-container-executor.cgroups.strict-resource-usage" для YARN под спарк-приложения?
источник

UD

Uncel Duk in Data Engineers
Sergey Sheremeta
коллеги, добрый день!
подскажите, есть смысл включать опцию YARN "yarn.nodemanager.linux-container-executor.cgroups.strict-resource-usage" для YARN под спарк-приложения?
да, чтобы не вылезали за свои запрошенные ресурсы
источник

UD

Uncel Duk in Data Engineers
типичная история с различными ml фреемворками, которые тащат например openmp
источник

SS

Sergey Sheremeta in Data Engineers
а какие еще полезные опции YARN'а есть смысл настраивать?
источник

PA

Polina Azarova in Data Engineers
Sergey Sheremeta
коллеги, добрый день!
подскажите, есть смысл включать опцию YARN "yarn.nodemanager.linux-container-executor.cgroups.strict-resource-usage" для YARN под спарк-приложения?
Если ось поддерживает cgroups нормально
А не как centos6 :)
источник

UD

Uncel Duk in Data Engineers
Sergey Sheremeta
а какие еще полезные опции YARN'а есть смысл настраивать?
можно еще i/o weight
источник

UD

Uncel Duk in Data Engineers
Polina Azarova
Если ось поддерживает cgroups нормально
А не как centos6 :)
вроде все вменяемые закопали уже
источник

AZ

Anton Zadorozhniy in Data Engineers
Sergey Sheremeta
коллеги, добрый день!
подскажите, есть смысл включать опцию YARN "yarn.nodemanager.linux-container-executor.cgroups.strict-resource-usage" для YARN под спарк-приложения?
можно включить, но тогда не будет оверкоммита и может сильно упасть утилизация
источник

AZ

Anton Zadorozhniy in Data Engineers
с другой стороны если у вас multi-tenant кластер и вы гарантируете уровень сервиса - вы обязаны включить
источник