Телеграмм чат группы hadoopusers страница 1880

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1724 membersпожаловаться на группу

2019 December 09

AZ

Anton Zadorozhniy in Data Engineers

с этими форматами смотрите чтобы блок в память помещался, оно же не умеет разжимать на чтении с диска

источник

21:29пожаловаться #1

AZ

Anton Zadorozhniy in Data Engineers

может когда у нас будет будет поддержка arrow flight вы сможете без дополнительной перепаковки гнать в терадатку, но сейчас ему нужно построчное представление чтобы начать передавать данные

источник

21:32пожаловаться #2

С

Сюткин in Data Engineers

А юзаешь tdch.teradata.output.truncate? Проблем или багов не замечал?

источник

21:48пожаловаться #3

AZ

Anton Zadorozhniy in Data Engineers

это просто очистка таблицы, нужна для того чтобы fastload работал (он умеет только в пустую таблицу), должна работать без проблем

источник

21:50пожаловаться #4

AZ

Anton Zadorozhniy in Data Engineers

full disclaimer, я его использовал, а также чинил и дописывал потому что тружусь в терадате

источник

21:50пожаловаться #5

AZ

Anton Zadorozhniy in Data Engineers

если какой-то воспроизводимый баг то его можно завести и пофиксить без проблем, там довольно тривиально все внутри

источник

21:58пожаловаться #6

С

Сюткин in Data Engineers

Спасибо за помощь :)

источник

22:03пожаловаться #7

d

ddre_z in Data Engineers

привет всем, тут вообщем у меня вопрос возник. Выложил его на стекоферфлоу - https://stackoverflow.com/questions/59251352/aggregate-and-sum-vector-sparse-by-cuid-in-spark-scala

Aggregate and sum vector sparse by cuid in spark scala

Let's say I have next vector sparse and dt_diff(integer value). So, I need aggregation values by cuid and sum these values

+-----------------------------------+-----------------------------------...

источник

22:44пожаловаться #8

2019 December 10

O

Oleg in Data Engineers

Кому-нибудь приходилось интегрироваться с коллекторами данных моц сетей, для обогащения профиля клиента например?

источник

00:02пожаловаться #9

O

Oleg in Data Engineers

Кто сейчас этим занимается? Раньше вроде дабл дата была, а сейчас не понятно есть у них такая услуга

источник

00:02пожаловаться #10

ЕГ

Евгений Глотов in Data Engineers

а сейчас берите и краулите, только не спалитесь, а то Усманов засудит)

источник

00:07пожаловаться #11

SO

Simon Osipov in Data Engineers

Кто сейчас этим занимается? Раньше вроде дабл дата была, а сейчас не понятно есть у них такая услуга

https://hflabs.ru/

источник

03:12пожаловаться #12

SO

Simon Osipov in Data Engineers

Ну и их "дочка" https://dadata.ru/

источник

03:13пожаловаться #13

A

Aleksandr in Data Engineers

Привет. Есть следующая проблема: читаю спарком из jdbc источника. Датасет относительно маленький (250к строк, ширина 200 полей) в паркетнике получается около 10 мб. При этом джоба работает очень долго ~ 2 часа. Попробовал ради интереса распараллелить через lower/upper Bound с numPartitions=10 и заметил интересную вещь - 9 из 10 паркет файлов имеют таймстемп через 15 минут после старта джобы, а последний, десятый, записывается только тогда, когда заканчивается полностью джоба, спустя два часа. В чем может быть причина такого поведения? Может быть, попробовать включить спекулятивное выполнение?

источник

09:34пожаловаться #14

M

Mi in Data Engineers

Привет. Есть следующая проблема: читаю спарком из jdbc источника. Датасет относительно маленький (250к строк, ширина 200 полей) в паркетнике получается около 10 мб. При этом джоба работает очень долго ~ 2 часа. Попробовал ради интереса распараллелить через lower/upper Bound с numPartitions=10 и заметил интересную вещь - 9 из 10 паркет файлов имеют таймстемп через 15 минут после старта джобы, а последний, десятый, записывается только тогда, когда заканчивается полностью джоба, спустя два часа. В чем может быть причина такого поведения? Может быть, попробовать включить спекулятивное выполнение?

А у вас только чтение происходит? Никаких трансформаций, агрегаций и тд?

источник

09:45пожаловаться #15

A

Aleksandr in Data Engineers

А у вас только чтение происходит? Никаких трансформаций, агрегаций и тд?

Только фильтрация (.filter()) и потом трансформация с помощью кастомной udf. Пробовал убирать трансформацию и делать .take(10).show() - результат такой же, медленный.

источник

09:49пожаловаться #16

M

Mi in Data Engineers

Также это может быть что ключ ваших баундов банально плохо распределен

источник

09:49пожаловаться #17

A

Aleksandr in Data Engineers

Но последний партишен такой же по размеру получается (примерно), как и остальные 9. Это же было бы, наверное, заметно при неравномерном распределении?

источник

09:51пожаловаться #18

A

Alex in Data Engineers

@salatiques самый простой способ это глянуть чем занимаются потоки на воркерах в данный момент

сидят они на jdbc, на генерации паркета, или может у вас там ещё что весёлое есть

источник

10:10пожаловаться #19

A

Alexander in Data Engineers

Можно и так сказать) я именно такой вопрос и задал интервьюерам: "в какой задаче вашим дата инженерам требуется знание как ходить по дереву?"

Внятного ответа не получил от них, поэтому решил спросить)

Чёрт! Отличный встречный вопрос на эти надоевшие задачки из учебников!

источник

10:25пожаловаться #20