Size: a a a

2019 December 09

AZ

Anton Zadorozhniy in Data Engineers
с этими форматами смотрите чтобы блок в память помещался, оно же не умеет разжимать на чтении с диска
источник

AZ

Anton Zadorozhniy in Data Engineers
может когда у нас будет будет поддержка arrow flight вы сможете без дополнительной перепаковки гнать в терадатку, но сейчас ему нужно построчное представление чтобы начать передавать данные
источник

С

Сюткин in Data Engineers
А юзаешь tdch.teradata.output.truncate?  Проблем или багов не замечал?
источник

AZ

Anton Zadorozhniy in Data Engineers
это просто очистка таблицы, нужна для того чтобы fastload работал (он умеет только в пустую таблицу), должна работать без проблем
источник

AZ

Anton Zadorozhniy in Data Engineers
full disclaimer, я его использовал, а также чинил и дописывал потому что тружусь в терадате
источник

AZ

Anton Zadorozhniy in Data Engineers
если какой-то воспроизводимый баг то его можно завести и пофиксить без проблем, там довольно тривиально все внутри
источник

С

Сюткин in Data Engineers
Спасибо за помощь :)
источник

d

ddre_z in Data Engineers
привет всем, тут вообщем у меня вопрос возник. Выложил его на стекоферфлоу - https://stackoverflow.com/questions/59251352/aggregate-and-sum-vector-sparse-by-cuid-in-spark-scala
источник
2019 December 10

O

Oleg in Data Engineers
Кому-нибудь  приходилось интегрироваться с коллекторами данных моц сетей, для обогащения профиля клиента например?
источник

O

Oleg in Data Engineers
Кто сейчас этим занимается? Раньше вроде дабл дата была, а сейчас не понятно есть у них такая услуга
источник

ЕГ

Евгений Глотов in Data Engineers
а сейчас берите и краулите, только не спалитесь, а то Усманов засудит)
источник

SO

Simon Osipov in Data Engineers
Oleg
Кто сейчас этим занимается? Раньше вроде дабл дата была, а сейчас не понятно есть у них такая услуга
источник

SO

Simon Osipov in Data Engineers
Ну и их "дочка" https://dadata.ru/
источник

A

Aleksandr in Data Engineers
Привет. Есть следующая проблема: читаю спарком из jdbc источника. Датасет относительно маленький (250к строк, ширина 200 полей) в паркетнике получается около 10 мб. При этом джоба работает очень долго ~ 2 часа. Попробовал ради интереса распараллелить через lower/upper Bound с numPartitions=10 и заметил интересную вещь - 9 из 10 паркет файлов имеют таймстемп через 15 минут после старта джобы, а последний, десятый, записывается только тогда, когда заканчивается полностью джоба, спустя два часа. В чем может быть причина такого поведения? Может быть, попробовать включить спекулятивное выполнение?
источник

M

Mi in Data Engineers
Aleksandr
Привет. Есть следующая проблема: читаю спарком из jdbc источника. Датасет относительно маленький (250к строк, ширина 200 полей) в паркетнике получается около 10 мб. При этом джоба работает очень долго ~ 2 часа. Попробовал ради интереса распараллелить через lower/upper Bound с numPartitions=10 и заметил интересную вещь - 9 из 10 паркет файлов имеют таймстемп через 15 минут после старта джобы, а последний, десятый, записывается только тогда, когда заканчивается полностью джоба, спустя два часа. В чем может быть причина такого поведения? Может быть, попробовать включить спекулятивное выполнение?
А у вас только чтение происходит? Никаких трансформаций, агрегаций и тд?
источник

A

Aleksandr in Data Engineers
Mi
А у вас только чтение происходит? Никаких трансформаций, агрегаций и тд?
Только фильтрация (.filter()) и потом трансформация с помощью кастомной udf. Пробовал убирать трансформацию и делать .take(10).show() - результат такой же, медленный.
источник

M

Mi in Data Engineers
Также это может быть что ключ ваших баундов банально плохо распределен
источник

A

Aleksandr in Data Engineers
Но последний партишен такой же по размеру получается (примерно), как и остальные 9. Это же было бы, наверное, заметно при неравномерном распределении?
источник

A

Alex in Data Engineers
@salatiques самый простой способ это глянуть чем занимаются потоки на воркерах в данный момент

сидят они на jdbc, на генерации паркета, или может у вас там ещё что весёлое есть
источник

A

Alexander in Data Engineers
Simon Osipov
Можно и так сказать) я именно такой вопрос и задал интервьюерам: "в какой задаче вашим дата инженерам требуется знание как ходить по дереву?"

Внятного ответа не получил от них, поэтому решил спросить)
Чёрт! Отличный встречный вопрос на эти надоевшие задачки из учебников!
источник