Телеграмм чат группы hadoopusers страница 2633

2020 August 17

Ж

вот пример:

https://github.com/renardeinside/databricks-jobs-jsonnet/blob/master/src/test/scala/com/databricks/example/utils/SparkSupport.scala

GitHub

renardeinside/databricks-jobs-jsonnet

Example project with Databricks jobs and configuration management via jsonnet - renardeinside/databricks-jobs-jsonnet

Вопрос только будет ли возможность делать импорт implicits когда есть бифор

источник

11:08пожаловаться #1

DZ

Dmitry Zuev in Data Engineers

Жмака

Всем привет. Новичок в скале 😇Не могу победить сериализацию. Создал тест класс с junit, в @before определил sparkSession, в тестовом методе нужно создать dataset из sequence с тестовыми даннымми. Создает датасет с одной колонкой value с бинарными данными. Имплиситс не могу прописать, потому что sparkSession определена в @before. Как правильно сделать? Пробовал энкодер сделать но видно "руки кривые" или туплю🙂

Какой Спарк? Мб сразу взять тесткит?

источник

11:10пожаловаться #2

Ж

Жмака in Data Engineers

2.4.5

источник

11:10пожаловаться #3

DZ

Dmitry Zuev in Data Engineers

Мда, вроде тест кит к 2.4 не подтянули.

Но я бы просто сделал функции для тестов SparkSession => Unit

источник

11:12пожаловаться #4

DZ

Dmitry Zuev in Data Engineers

Ну и не использовал junit

источник

11:13пожаловаться #5

R

Renarde in Data Engineers

Жмака

Вопрос только будет ли возможность делать импорт implicits когда есть бифор

возможно вот так:

test("other-test") {
  val context = spark.sqlContext
  import context.implicits._
}

источник

11:15пожаловаться #6

R

Renarde in Data Engineers

я не гарантирую что это 100% best practice и наверное люди с невероятно высокими познаниями в Scala раскритикуют этот подход, но я знаю что он работает

источник

11:16пожаловаться #7

AS

Andrey Smirnov in Data Engineers

Renarde

я не гарантирую что это 100% best practice и наверное люди с невероятно высокими познаниями в Scala раскритикуют этот подход, но я знаю что он работает

+1
можно как написали выше через loan pattern (вроде так называется), но имхо это не нужно украшение

источник

11:33пожаловаться #8

Ж

Жмака in Data Engineers

Dmitry Zuev

Ну и не использовал junit

А что в нем не так?

источник

11:38пожаловаться #9

Ж

Жмака in Data Engineers

Renarde

я не гарантирую что это 100% best practice и наверное люди с невероятно высокими познаниями в Scala раскритикуют этот подход, но я знаю что он работает

В scala user group мне также предложили вынести спарк сессию из бифор. В этом случае импот implocits сработал. Я оставил только афтер для закрытия сессии

источник

11:40пожаловаться #10

DZ

Dmitry Zuev in Data Engineers

Ну в том что для скалы есть что-то поудобнее

источник

11:41пожаловаться #11

SS

Sergey Sheremeta in Data Engineers

коллеги, добрый день!
подскажите, есть смысл включать опцию YARN "yarn.nodemanager.linux-container-executor.cgroups.strict-resource-usage" для YARN под спарк-приложения?

источник

11:49пожаловаться #12

UD

Uncel Duk in Data Engineers

Sergey Sheremeta

коллеги, добрый день!
подскажите, есть смысл включать опцию YARN "yarn.nodemanager.linux-container-executor.cgroups.strict-resource-usage" для YARN под спарк-приложения?

да, чтобы не вылезали за свои запрошенные ресурсы

источник

11:52пожаловаться #13

UD

Uncel Duk in Data Engineers

типичная история с различными ml фреемворками, которые тащат например openmp

источник

11:52пожаловаться #14

SS

Sergey Sheremeta in Data Engineers

а какие еще полезные опции YARN'а есть смысл настраивать?

источник

11:53пожаловаться #15

PA

Polina Azarova in Data Engineers

Sergey Sheremeta

коллеги, добрый день!
подскажите, есть смысл включать опцию YARN "yarn.nodemanager.linux-container-executor.cgroups.strict-resource-usage" для YARN под спарк-приложения?

Если ось поддерживает cgroups нормально
А не как centos6 :)

источник

11:54пожаловаться #16

UD

Uncel Duk in Data Engineers

Sergey Sheremeta

а какие еще полезные опции YARN'а есть смысл настраивать?

можно еще i/o weight

источник

11:55пожаловаться #17

UD

Uncel Duk in Data Engineers

Polina Azarova

Если ось поддерживает cgroups нормально
А не как centos6 :)

вроде все вменяемые закопали уже

источник

11:56пожаловаться #18

AZ

Anton Zadorozhniy in Data Engineers

Sergey Sheremeta

коллеги, добрый день!
подскажите, есть смысл включать опцию YARN "yarn.nodemanager.linux-container-executor.cgroups.strict-resource-usage" для YARN под спарк-приложения?

можно включить, но тогда не будет оверкоммита и может сильно упасть утилизация

источник

12:04пожаловаться #19

AZ

Anton Zadorozhniy in Data Engineers

с другой стороны если у вас multi-tenant кластер и вы гарантируете уровень сервиса - вы обязаны включить

источник

12:05пожаловаться #20