Size: a a a

2019 November 27

VS

Vladimir Sennikov in Data Engineers
Когда вредно хешировать.

Есть важный набор случаев, когда, несмотря на надёжность хеш-функции, восстановление прообраза или даже исходного текста не представляет проблемы. Это случай, когда использовать хеш-функцию бессмысленно: http://amp.gs/sKyA
источник

K

KrivdaTheTriewe in Data Engineers
Nikita Blagodarnyy
Откуда такая уверенность? Какой-то законопроект готовят- разрешить на территории таможенного союза дистрибутивы только содержащие слово  «арена» в названии? :)
И общаться на тему больших данных только в @hadoopusers
источник

t

tenKe in Data Engineers
и писать на спарке
источник

K

KrivdaTheTriewe in Data Engineers
tenKe
и писать на спарке
На перле
источник

t

tenKe in Data Engineers
под винду
источник

t

tenKe in Data Engineers
источник

АЖ

Андрей Жуков in Data Engineers
источник

A

Alex in Data Engineers
и само удивительно это реализуемо =)
источник

Ik

Ilia ksen in Data Engineers
Привет. df.count() работает очень медленно, с чем может быть связано и чем можно заменить?
источник

Ik

Ilia ksen in Data Engineers
Заранее спасибо)
источник

Ik

Ilia ksen in Data Engineers
Даже если запись в df всего одна
источник

A

Alex in Data Engineers
посмотреть в ui куда уходит, может вагон ошибок сразу падает и лишь после очередного retry возвращает ответ
источник

ME

Max Efremov in Data Engineers
Ilia ksen
Привет. df.count() работает очень медленно, с чем может быть связано и чем можно заменить?
Попробуй закэшировать
источник

ME

Max Efremov in Data Engineers
Он все трансформации выполняет до
источник

Ik

Ilia ksen in Data Engineers
Спасибо буду пробовать
источник

M

Mikhail in Data Engineers
Всем привет! Есть ли среди нас инженеры, кто использует Spark Streaming на AWS в проде? Что используете для сохранения чекпоинтов?
источник

R

Renarde in Data Engineers
Mikhail
Всем привет! Есть ли среди нас инженеры, кто использует Spark Streaming на AWS в проде? Что используете для сохранения чекпоинтов?
чекпоинты и так сохраняются на S3, как еще вы хотите их сохранять? 🙂
источник

R

Renarde in Data Engineers
ну как то так я имею в виду:

spark.readStream.load(“blah-blah”).foreachBatch(someFunc).option(“checkpointLocation”,”s3a://some-location”).start
источник

M

Mikhail in Data Engineers
При использовании S3 напрямую можно поиметь проблемы с консистентностью, т.к. обжект стор eventually consistent.
источник

R

Renarde in Data Engineers
Mikhail
При использовании S3 напрямую можно поиметь проблемы с консистентностью, т.к. обжект стор eventually consistent.
тут надо учитывать момент что Spark не постоянно сбрасывает checkpointData на диск - он еще его некоторое время держит в памяти
источник