Size: a a a

2019 November 26

AZ

Anton Zadorozhniy in Data Engineers
Мы даже для своей СУБД теперь по желанию заказчика поставляем кубер рядом, на своём железе он вообще в инфинибенде сидит, и приложухи наружу мы пускаем просто так, а не через джава приложуху переписывающую строки на ходу))
источник

VE

Vladimir E. in Data Engineers
Сейчас конечно всё это в докере и под кубер пилим, но для PoC нам очень редко дают в ресурс каких-нить дата инженеров или доступ к куберу, обычно просто стандалон ставим
источник

VE

Vladimir E. in Data Engineers
Спасибо за информацию к размышлению)
источник

AK

Andrew Kochen in Data Engineers
Привет всем
Никто не подскажет, есть ли какая-нибудь хорошо оптимизированная функция под спарк для выделения часто встречающегося значения при группировке(group by)?
Сейчас я взял UDF отсюда - https://gist.github.com/anish749/6a815ed281f538068a0d3a20ca9044fa - оно просто складывает все значения с count'ами в мапу и выбирает в конце наиболее используемое
работает это очень долго на большой таблице

хочется заиметь некий аналог anyHeavy() из ClickHouse
источник

A

Anton Kovalenko in Data Engineers
Amir
если есть литература ссылки на ресурсы, просьба дать, что бы предварительно можно было погрузиться в Cloudera
Не самый дальновидный поступок )  если возникнут проблемы или вопросы, в клаудеру писать будете?
источник

A

Anton Kovalenko in Data Engineers
А вот в Аренадату написать можно и получить консультацию. К тому же если работаете в РФ, то в проде у вас с большой долей вероятности рано или поздно будет именно сборка Аренадаты
источник

T

T in Data Engineers
Pavel
Коллеги, привет. Если у кого был реальный опыт по замене HDFS на S3, расскажите с какими болями пришлось столкнуться, с какими лишениями пришлось смириться или не смириться, что пришлось пережить команде разработке, как стали организованы джобы на каком-нибудь спарке, как радовался ваш девопс, когда ему больше не приходится рестартовать неймноды и пр.???
Мы успешно  переехали только у нас совсем не много данных ~ 50 тб за ночь и процессы только бачевые
источник

T

T in Data Engineers
И много денег  - самыважный пункт при работе с авс
источник

A

Anton Kovalenko in Data Engineers
Anton Zadorozhniy
если речь про будущее то останется только Cloudera, CDP
Хортон наверное тоже когда-то так думал... ) Так что тут как бы.... бабка надвое сказала. Вообще не удивимся, если клаудера через какое-то время прикроет свой дистрибутив для офлайна и оставит доступным только CDP из облака.
источник

VE

Vladimir E. in Data Engineers
Nah, у клаудеры единственное лидерство это как раз таки на on prem, зачем от него отказываться
источник

VE

Vladimir E. in Data Engineers
Они в гибрид уходят
источник

VE

Vladimir E. in Data Engineers
Чего с EMR и датабриксом нельзя
источник

AS

Andrey Smirnov in Data Engineers
Anton Kovalenko
А вот в Аренадату написать можно и получить консультацию. К тому же если работаете в РФ, то в проде у вас с большой долей вероятности рано или поздно будет именно сборка Аренадаты
боже упаси
источник

A

Anton Kovalenko in Data Engineers
Vladimir E.
Nah, у клаудеры единственное лидерство это как раз таки на on prem, зачем от него отказываться
https://ru.investing.com/equities/cloudera-inc-income-statement
Последние 4 года Клаудера убыточна на сумму от 150 до 370 млн. $ в год. Выводы делайте сами. Хортон тоже не от хорошей жизни продался и тоже был убыточен. Так что лидерство в кол-ве on-prem инсталляций - это не показатель. Для них это скорее тяжелая ноша, которая приносит не так много денег, чтобы даже окупится.
источник

ME

Mikhail Epikhin in Data Engineers
ну вопрос же в росте выручки
источник

VE

Vladimir E. in Data Engineers
Так никто не спорит с тем что у них убытки, но у них сейчас стратегия на гибрид. Он прем кастомеры уходят в Клауд и их нечем сдерживать
источник

VE

Vladimir E. in Data Engineers
Но отказываться от существующих кастомеров которым нужен он прем - идиотство
источник

VE

Vladimir E. in Data Engineers
И мультклауд ещё
источник

VE

Vladimir E. in Data Engineers
Которого нет у ЕМР например
источник

VE

Vladimir E. in Data Engineers
Они чистый Клауд не потянут конкурировать с ЕМР и датабриксом, это самоубийство
источник