Size: a a a

2019 December 15

АС

Артур Семенов in Data Engineers
отвечу немного "ранее" для себя, я сейчас взаимодействую с постгресом либо напрямую, либо через кафку. Для себя хотел бы, в перспективе уметь перейти на хадуп и облачные технологии и прочее
источник

АС

Артур Семенов in Data Engineers
переквалифицироваться в бигдату
источник

ME

Max Efremov in Data Engineers
Инструмент стоит выбирать от задач, а так сейчас вполне популярны спарк, кафка (у неё тоже стриминг есть)
источник

АС

Артур Семенов in Data Engineers
так какая же бигдата без hdfs, репликаций и прочего
источник

АЖ

Андрей Жуков in Data Engineers
Артур Семенов
так какая же бигдата без hdfs, репликаций и прочего
Бигдата большая.
источник

GP

Grigory Pomadchin in Data Engineers
Артур Семенов
так какая же бигдата без hdfs, репликаций и прочего
Разная большедата есть, есть большие вычисления, есть большая дата и есть и то и то большое
источник

GP

Grigory Pomadchin in Data Engineers
источник

ME

Max Efremov in Data Engineers
Артур Семенов
так какая же бигдата без hdfs, репликаций и прочего
Оно может быть в облаке, например. Мы используем AWS и там S3 и Glue. Нет никакого кластера, всё serverless
источник

T

T in Data Engineers
Max Efremov
Оно может быть в облаке, например. Мы используем AWS и там S3 и Glue. Нет никакого кластера, всё serverless
Какой обьем даных через glue  пропускаете?
источник

ME

Max Efremov in Data Engineers
T
Какой обьем даных через glue  пропускаете?
Ой, там мелочь, меньше терабайта
источник

ME

Max Efremov in Data Engineers
Хотя и мощность всегда настроена на минималку почти, 2-10 dpu
источник

T

T in Data Engineers
Max Efremov
Ой, там мелочь, меньше терабайта
Да не много, спасибо за ответ
источник

АС

Артур Семенов in Data Engineers
Max Efremov
Ой, там мелочь, меньше терабайта
В день?
источник

ME

Max Efremov in Data Engineers
за запуск пайплайна, скорее. У нас цепочка последовательных джоб идёт
источник
2019 December 16

Ik

Ilia ksen in Data Engineers
Привет. Ребята каким образом можно решить проблему?
источник

Ik

Ilia ksen in Data Engineers
org.codehaus.janino.InternalCompilerException: Compiling "GeneratedClass": Code of method "processNext()V" of class "org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIteratorForCodegenStage11" grows beyond 64 KB
источник

N

Nikita Blagodarnyy in Data Engineers
Артур Семенов
кто-нибудь локально разворачивал хадуп?
Скачайте sandbox hortonworks или cloudera.
источник

N

Nikita Blagodarnyy in Data Engineers
Артур Семенов
а что, это уже не модно? ну в Сбере
У вас же есть свой сбердуп. Презентовали его тут недавно.
источник

OI

Oleg Ilinsky in Data Engineers
Oleg Ilinsky
Привет!
У меня спарк стрим читает из hdfs и пишет в табличку hive. И вот сейчас начал падать с ошибкой:
19/11/06 18:24:20 WARN RetryingMetaStoreClient: MetaStoreClient lost connection. Attempting to reconnect.
org.apache.thrift.TApplicationException: Required field 'filesAdded' is unset! Struct:InsertEventRequestData(filesAdded:null)
Причём только на одной из таблиц. На остальных всё ок. Нагуглил только баги спарка/хайва, которые уже resolved...
если кому интересно, решилось настройкой "hive.metadata.dml.events", false
Там через жопу пишутся метаданные новых партиций.
источник

N

Nikolay in Data Engineers
Nikita Blagodarnyy
У вас же есть свой сбердуп. Презентовали его тут недавно.
Это как ?
источник