Телеграмм чат группы hadoopusers страница 4277

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

3187 membersпожаловаться на группу

2021 September 30

NN

No Name in Data Engineers

Я вообще не претендую на экспертизу в таких высоких материях, ну и у @workales , как я понял, там вообще какие-то оч специфические задачи, которые надо ещё умудриться найти, но, блин, этот синтаксис для меня, как для пользователя, ну и как для чуть-чуть разраба, выглядит вообще неюзабельно ни по сравнению с питоном, ни по сравнению со скалой, ни даже по сравнению с джавой. Я уж молчу про сикуле.

источник

22:46пожаловаться #1

MA

Mark Adamenko in Data Engineers

Коллеги, приветствую! Буду благодарен за помощь! Есть несколько датасетов -часть в csv, часть в json (json разной структуры - разная степень вложенности, разные имена свойств, хотя по факту могут быть эквивалентными). А - самое главное - надо объединить с одной структурой, свойства смержить. Как подступиться к задаче?

источник

23:03пожаловаться #2

ПФ

Паша Финкельштейн... in Data Engineers

Мне кажется для такого кальцит и придумали

источник

23:39пожаловаться #3

2021 October 01

MA

Mark Adamenko in Data Engineers

Благодарю. Смотрю...

источник

00:25пожаловаться #4

ПФ

Паша Финкельштейн... in Data Engineers

Вам, кажется, не поможет. Слишком низкий уровень

источник

00:26пожаловаться #5

ПФ

Паша Финкельштейн... in Data Engineers

Вам надо в общем виде или в конкретном?

источник

00:27пожаловаться #6

D

Dmitry in Data Engineers

Всем привет! Вопрос по scala: когда пишу в hive методом write из датафрейма (dataset + toDF) , сохраняется таблица с одним столбом col тип array. А если сделать select отдельных столбцов из датафрейма и после этого применить toDF() то сохраняется таблица с несколькими столбцами. Помогите плз понять в чем особенность?

источник

04:01пожаловаться #7

GP

Grigory Pomadchin in Data Engineers

посмотри на схему после дф и после сетекта

источник

04:05пожаловаться #8

GP

Grigory Pomadchin in Data Engineers

Но мне кажется нарушена логиках какая-то в вопросе DS => DF я понял; что значит селект сделать; селект чего? Из результирующего дфа после конверта из дса?

источник

04:06пожаловаться #9

D

Dmitry in Data Engineers

Схема отображается и если селектить и если не селектить как много столбцов. Что то при записи в hive происходит. Если обратно в спарк считывать, то корректно распознаётся каждый столбец

источник

04:07пожаловаться #10

D

Dmitry in Data Engineers

1) ds.toDF().write.format("parquet").saveAsTable("table")
сохраняется как col (array)
2)ds.toDF().select("col1","col2").write.format("parquet").saveAsTable("table")
Сохраняется по двум столбцам

источник

04:10пожаловаться #11

D

Dmitry in Data Engineers

Я хочу чтобы по нескольким столбцам сохранялись, а не по одному col (array)

источник

04:15пожаловаться #12

GP

Grigory Pomadchin in Data Engineers

ds.toDF какая схема? и ds.toDF.select какая

источник

04:16пожаловаться #13

D

Dmitry in Data Engineers

Если делаю printSchema() схема отображается и там и там с отдельными полями

источник

04:18пожаловаться #14

ИК

Иван Калининский... in Data Engineers

Названия столбцов все валидные? В них только альфанумерик и «_»?

источник

07:55пожаловаться #15

AS

Alexey Stavrov in Data Engineers

Подскажите по свзяке hbase и phoenix.
В hbase должно выполняться такое соотношение memstore + blockcache <= 0.8.
Если добавить phoenix, то у него есть такой параметр phoenix.query.maxGlobalMemoryPercentage, который говорит о том, что ему чо-то нужно оставить тоже.
Нужно ли phoenix включить в это неравенство?

источник

08:32пожаловаться #16

D

Dmitry in Data Engineers

Формат даты не записывался в паркет, надо в таймстемп кастовать🙈 спасибо за наводку!

источник

10:21пожаловаться #17

ИК

Иван Калининский... in Data Engineers

Три года этого не видел! Надо было сразу написать, но я не верил до последнего))

источник

10:22пожаловаться #18

D

Dmitry in Data Engineers

Спасибо)

источник

10:22пожаловаться #19

AE

Alexey Evdokimov in Data Engineers

кальцит без схемы бесполезен чуть более, чем полностью. если бы в наших flow было реально навалять генератор схемы, я бы его ещё пару лет назад забабахал. основной затык у нас в schema-less процессах (ну или процессах с контекстно-мутабельной схемой), о чём я и плачусь с самого начала :(

более специфические задачи надо ещё поискать, эт верно

источник

15:37пожаловаться #20