Телеграмм чат группы hadoopusers страница 1850

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1724 membersпожаловаться на группу

2019 December 05

Ik

Ilia ksen in Data Engineers

схему изменили заранее

источник

10:54пожаловаться #1

Ik

Ilia ksen in Data Engineers

то есть все поля есть, кроме нового

источник

10:54пожаловаться #2

N

Nikolay in Data Engineers

Можно сделать переключатель. Фитча флажек

источник

10:54пожаловаться #3

AL

Artem Likhomanenko in Data Engineers

На данный момент просто кидает ошибку, что нет такого поля

В схеме сказать что он может два типа имеет [string, null ]? Типо такого по аналогии с авро

источник

10:54пожаловаться #4

ME

Max Efremov in Data Engineers

Считать файлч посмотреть его колонки и определить, можно использовать или нет новое поле

источник

10:55пожаловаться #5

Ik

Ilia ksen in Data Engineers

Андрей Жуков

А что за ошибка? Чем и как вычитываете?

spark.read.schema(schema).parquet(cdir)

источник

10:55пожаловаться #6

Ik

Ilia ksen in Data Engineers

Считать файлч посмотреть его колонки и определить, можно использовать или нет новое поле

Использовать в любом случае надо, даже если его нет, потому что в будущем оно появится))

источник

10:56пожаловаться #7

Ik

Ilia ksen in Data Engineers

Использовать в любом случае надо, даже если его нет, потому что в будущем оно появится))

это не моя прихоть это бизнес кейс

источник

10:56пожаловаться #8

АЖ

Андрей Жуков in Data Engineers

spark.read.schema(schema).parquet(cdir)

Тогда только костылить. Вы еще потом решите типы поменять в схеме и огребете дальше

источник

10:56пожаловаться #9

Ik

Ilia ksen in Data Engineers

Андрей Жуков

Тогда только костылить. Вы еще потом решите типы поменять в схеме и огребете дальше

ну типы менять не планируется)

источник

10:57пожаловаться #10

Ik

Ilia ksen in Data Engineers

Андрей Жуков

Тогда только костылить. Вы еще потом решите типы поменять в схеме и огребете дальше

то есть без костыля вообще никак?

источник

10:58пожаловаться #11

АЖ

Андрей Жуков in Data Engineers

то есть без костыля вообще никак?

Напиши кастомный ридер паркета, который будет накидывать lit()

источник

10:58пожаловаться #12

AL

Artem Likhomanenko in Data Engineers

@Ilia_ksen посмотрите вот тут https://medium.com/@weshoffman/apache-spark-parquet-and-troublesome-nulls-28712b06f836

Apache Spark, Parquet, and Troublesome Nulls

A hard learned lesson in type safety and assuming too much

источник

11:02пожаловаться #13

AS

Anton Shelin in Data Engineers

Привет. Есть вопрос. Допустим писались паркетные файлы с одной схемой и решили добавить в данные новое поле, добавили его в схему заранее, но в паркете его еще нет, но появится например завтра. Как сделать так чтобы паркет вычитывался уже с новым полем, но просто обозначал его null?

может это https://spark.apache.org/docs/latest/sql-data-sources-parquet.html#schema-merging в авро точно знаю есть 2 схемы та с которой файл писался и та с которой файл читается. за счет этого обеспечивается эволюция. возможно вам надо подкидывать новую схему при чтении и задавать или дефолтное значение или у вас в новой схеме это поле должно быть нуллабл

источник

11:10пожаловаться #14

d

ddre_z in Data Engineers

Nikolay

Лучшую стратегию для чего ? Когда решается задача оптимизации , то должен быть критерий оптимальности. Если вы например зальете данные в ClickHouse , то у вас джойн будет быстрее ( у вас маленький объем данных ), но если у вас объем данных существенно возрастёт и не будет влезать в память сервера , на котором запускается , то КХ начнет падать

очевидно же, что мне нужно получить два датафрейма из двух csv с теми полями, которые сейчас находятся в большом файле по идентификатору

источник

11:13пожаловаться #15

d

ddre_z in Data Engineers

AnimatedSticker.tgs

источник

11:13пожаловаться #16

Ik

Ilia ksen in Data Engineers

Окей спасибо всем

источник

11:14пожаловаться #17

AS

Anton Shelin in Data Engineers

может это https://spark.apache.org/docs/latest/sql-data-sources-parquet.html#schema-merging в авро точно знаю есть 2 схемы та с которой файл писался и та с которой файл читается. за счет этого обеспечивается эволюция. возможно вам надо подкидывать новую схему при чтении и задавать или дефолтное значение или у вас в новой схеме это поле должно быть нуллабл

можно еще вьюшку сделать CREATE VIEW schema2 AS SELECT f1..., NULL as new_field FROM schema1 f1;

источник

11:16пожаловаться #18

Ik

Ilia ksen in Data Engineers

Artem Likhomanenko

@Ilia_ksen посмотрите вот тут https://medium.com/@weshoffman/apache-spark-parquet-and-troublesome-nulls-28712b06f836

Apache Spark, Parquet, and Troublesome Nulls

A hard learned lesson in type safety and assuming too much

Вот тут я специально уточнил, что мержить пока несчем;)

источник

11:19пожаловаться #19

Ik

Ilia ksen in Data Engineers

Нету новых файлов в паркете еще)

источник

11:19пожаловаться #20