Телеграмм чат группы hadoopusers страница 1831

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1724 membersпожаловаться на группу

2019 December 01

MV

Michael Voloshin in Data Engineers

Проблема в том, что это не логи, а csv. С кодировками проблем как раз нет, везде юникод, текст только на английском.

ну если в датасете нет bigint на over 25 символов или timestamp c 6 знаками после . в секундах, то Вам повезло.

источник

20:37пожаловаться #1

ME

Max Efremov in Data Engineers

Michael Voloshin

ну если в датасете нет bigint на over 25 символов или timestamp c 6 знаками после . в секундах, то Вам повезло.

Да, точно, есть проблема с длинными числами) иногда они в научный формат конвертируются :( но пока решали просто пересохранением, если данные дали на вход кривые. А так при просмотре не надо просто сохранять и всё хорошо)

источник

20:38пожаловаться #2

A4

Anon 43 in Data Engineers

Fedor Lavrentyev

Или это экзаменационный билет по курсу больших данных?

вопрос на отчет лабораторной

источник

20:47пожаловаться #3

T

T in Data Engineers

Привет кто-нибудь сталкивался стем что спарк 2.4.4 на скале 2.11 не может читать авро фаилы?

java.lang.AbstractMethodError: org.apache.spark.sql.avro.AvroFileFormat.shouldPrefetchData(Lorg/apache/spark/sql/SparkSession;Lorg/apache/spark/sql/types/StructType;Lorg/apache/spark/sql/types/StructType;)

источник

20:49пожаловаться #4

A4

Anon 43 in Data Engineers

Традиционные средства: всё что не паралелится на кластер, а работает на одной машине, наверное. Как простой питон скрипт так и всякие инструменты типа alteryx и sas

для распараллеливания на кластер есть MPI. Но как я понимаю, он с большими данными не очень, потому что надо вручную программировать порядок взаимодействия узлов. Долго короче (мб очень очень долго?)

источник

20:50пожаловаться #5

GP

Grigory Pomadchin in Data Engineers

Привет кто-нибудь сталкивался стем что спарк 2.4.4 на скале 2.11 не может читать авро фаилы?

java.lang.AbstractMethodError: org.apache.spark.sql.avro.AvroFileFormat.shouldPrefetchData(Lorg/apache/spark/sql/SparkSession;Lorg/apache/spark/sql/types/StructType;Lorg/apache/spark/sql/types/StructType;)

где-то слышал; но решилось переходом на 2.12; может какой-то баг в 2.4.4?

источник

20:53пожаловаться #6

GP

Grigory Pomadchin in Data Engineers

попробуй на их жире поискать

источник

20:54пожаловаться #7

FL

Fedor Lavrentyev in Data Engineers

вопрос на отчет лабораторной

Тогда ответ такой.

Традиционный подход к обработке данных подразумевает, что данные помещаются в память одной машины или хотя бы на один диск. Также, как правило, традиционный подход подразумевает обработку всего массива данных мощностями одной машины. В терминальном случае - в один поток.

Для данных действительно больших объемов такое не применимо. Во-первых, они не вмещаются на одну машину, во-вторых, их обработка мощностями одного процессорного узла или, тем более, одного ядра будет занимать неприемлемо много времени.

Я бы через это определял большие данные. Если данных слишком много для их обработки на одной машине - то это бигдата.

источник

20:57пожаловаться #8

FL

Fedor Lavrentyev in Data Engineers

Не уверен, можно ли MPI отнести к традиционным средствам.

источник

20:59пожаловаться #9

FL

Fedor Lavrentyev in Data Engineers

Fedor Lavrentyev

Тогда ответ такой.

Традиционный подход к обработке данных подразумевает, что данные помещаются в память одной машины или хотя бы на один диск. Также, как правило, традиционный подход подразумевает обработку всего массива данных мощностями одной машины. В терминальном случае - в один поток.

Для данных действительно больших объемов такое не применимо. Во-первых, они не вмещаются на одну машину, во-вторых, их обработка мощностями одного процессорного узла или, тем более, одного ядра будет занимать неприемлемо много времени.

Я бы через это определял большие данные. Если данных слишком много для их обработки на одной машине - то это бигдата.

При этом, надо понимать, что машины бывают разные. Например, для кого-то 150 ГБ уже на ноутбук не лезут, а кому-то 5 ТБ можно в память упихать.

источник

21:02пожаловаться #10

T

T in Data Engineers

Grigory Pomadchin

где-то слышал; но решилось переходом на 2.12; может какой-то баг в 2.4.4?

спасибо, решил даунгрейдом до 2.4.3 (emr 5.28.0 -> 5.26.0)

источник

21:09пожаловаться #11

AS

Anton Shelin in Data Engineers

Fedor Lavrentyev

Тогда ответ такой.

Традиционный подход к обработке данных подразумевает, что данные помещаются в память одной машины или хотя бы на один диск. Также, как правило, традиционный подход подразумевает обработку всего массива данных мощностями одной машины. В терминальном случае - в один поток.

Для данных действительно больших объемов такое не применимо. Во-первых, они не вмещаются на одну машину, во-вторых, их обработка мощностями одного процессорного узла или, тем более, одного ядра будет занимать неприемлемо много времени.

Я бы через это определял большие данные. Если данных слишком много для их обработки на одной машине - то это бигдата.

тут еще такой момент. смотря как мерять если у вас JSON то там могут быть теребайты а сконвертил в авро или еще лучше в паркет и получил маленький данные. Так что для pr лучше мерять json. Тотже csv при преобразовании в бинарную форму в памяти станет гораздо меньше

источник

21:26пожаловаться #12

AS

Anton Shelin in Data Engineers

У нас практика показывает преобразование нашего json в avro(правда с дефлейтом) жмет в 500 раз

источник

21:27пожаловаться #13

FL

Fedor Lavrentyev in Data Engineers

тут еще такой момент. смотря как мерять если у вас JSON то там могут быть теребайты а сконвертил в авро или еще лучше в паркет и получил маленький данные. Так что для pr лучше мерять json. Тотже csv при преобразовании в бинарную форму в памяти станет гораздо меньше

Как это вообще хоть что-то в ответе меняет? :)

источник

21:57пожаловаться #14

AS

Anton Shelin in Data Engineers

Fedor Lavrentyev

Как это вообще хоть что-то в ответе меняет? :)

Это просто информация. Оценить обьем можно по разному. Возможно все эти терабайты на диске спокойно влезут на один комп в память или их можно будет обработать последовательно инкрементальным алгоритмом.

источник

21:59пожаловаться #15

AS

Anton Shelin in Data Engineers

Или влезет на один диск когда преобразуешь

источник

22:00пожаловаться #16

FL

Fedor Lavrentyev in Data Engineers

источник

22:01пожаловаться #17

AS

Anton Shelin in Data Engineers

это ничего не меняет в ответе . скорее показывает что это все PR Хрень

источник

22:01пожаловаться #18

AS

Anton Shelin in Data Engineers

я не берусь гворить про гугл и т.п.

источник

22:01пожаловаться #19

MV

Michael Voloshin in Data Engineers

это ничего не меняет в ответе . скорее показывает что это все PR Хрень

я бы добавил к последнему тезису, что БигДата - заезженный термин используемый юными HR-барышнями и прочими гуманитариями

источник

22:13пожаловаться #20