Size: a a a

2021 September 30

NN

No Name in Data Engineers
Я вообще не претендую на экспертизу в таких высоких материях, ну и у @workales , как я понял, там вообще какие-то оч специфические задачи, которые надо ещё умудриться найти, но, блин, этот синтаксис для меня, как для пользователя, ну и как для чуть-чуть разраба, выглядит вообще неюзабельно ни по сравнению с питоном, ни по сравнению со скалой, ни даже по сравнению с джавой. Я уж молчу про сикуле.
источник

MA

Mark Adamenko in Data Engineers
Коллеги, приветствую! Буду благодарен за помощь! Есть несколько датасетов -часть в csv, часть в json (json разной структуры - разная степень вложенности, разные имена свойств, хотя по факту могут быть эквивалентными). А - самое главное - надо объединить с одной структурой, свойства смержить. Как подступиться к задаче?
источник

ПФ

Паша Финкельштейн... in Data Engineers
Мне кажется для такого кальцит и придумали
источник
2021 October 01

MA

Mark Adamenko in Data Engineers
Благодарю. Смотрю...
источник

ПФ

Паша Финкельштейн... in Data Engineers
Вам, кажется, не поможет. Слишком низкий уровень
источник

ПФ

Паша Финкельштейн... in Data Engineers
Вам надо в общем виде или в конкретном?
источник

D

Dmitry in Data Engineers
Всем привет! Вопрос по scala: когда пишу в hive методом write из датафрейма (dataset + toDF) , сохраняется таблица с одним столбом col тип array. А если сделать select отдельных столбцов из датафрейма и после этого применить toDF() то сохраняется таблица с несколькими столбцами. Помогите плз понять в чем особенность?
источник

GP

Grigory Pomadchin in Data Engineers
посмотри на схему после дф и после сетекта
источник

GP

Grigory Pomadchin in Data Engineers
Но мне кажется нарушена логиках какая-то в вопросе DS => DF я понял; что значит селект сделать; селект чего? Из результирующего дфа после конверта из дса?
источник

D

Dmitry in Data Engineers
Схема отображается и если селектить и если не селектить как много столбцов. Что то при записи в hive происходит. Если обратно в спарк считывать, то корректно распознаётся каждый столбец
источник

D

Dmitry in Data Engineers
1) ds.toDF().write.format("parquet").saveAsTable("table")
сохраняется как col (array)
2)ds.toDF().select("col1","col2").write.format("parquet").saveAsTable("table")
Сохраняется по двум столбцам
источник

D

Dmitry in Data Engineers
Я хочу чтобы по нескольким столбцам сохранялись, а не по одному col (array)
источник

GP

Grigory Pomadchin in Data Engineers
ds.toDF какая схема? и ds.toDF.select какая
источник

D

Dmitry in Data Engineers
Если делаю printSchema() схема отображается и там и там с отдельными полями
источник

ИК

Иван Калининский... in Data Engineers
Названия столбцов все валидные? В них только альфанумерик и «_»?
источник

AS

Alexey Stavrov in Data Engineers
Подскажите по свзяке hbase и phoenix.
В hbase должно выполняться такое соотношение memstore + blockcache <= 0.8.
Если добавить phoenix, то у него есть такой параметр phoenix.query.maxGlobalMemoryPercentage, который говорит о том, что ему чо-то нужно оставить тоже.
Нужно ли phoenix включить в это неравенство?
источник

D

Dmitry in Data Engineers
Формат даты не записывался в паркет, надо в таймстемп кастовать🙈 спасибо за наводку!
источник

ИК

Иван Калининский... in Data Engineers
Три года этого не видел! Надо было сразу написать, но я не верил до последнего))
источник

D

Dmitry in Data Engineers
Спасибо)
источник

AE

Alexey Evdokimov in Data Engineers
кальцит без схемы бесполезен чуть более, чем полностью. если бы в наших flow было реально навалять генератор схемы, я бы его ещё пару лет назад забабахал. основной затык у нас в schema-less процессах (ну или процессах с контекстно-мутабельной схемой), о чём я и плачусь с самого начала :(

более специфические задачи надо ещё поискать, эт верно
источник