Телеграмм чат группы hadoopusers страница 3514

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2391 membersпожаловаться на группу

2021 April 20

AE

Alexey Evdokimov in Data Engineers

да он частично написан уже у меня, просто не собран в кучу. там же и всё остальное моё поделие. пилю щас запись в паркет, заодно и эту болячку хочу пофиксить

источник

18:33пожаловаться #1

AE

Alexey Evdokimov in Data Engineers

будет через пару недель отдельная утилита, чтобы писать в/из емровского хдфса через все нативные filesystem и типа "плагины" как раз на пару сотен строк. jdbc, чужие s3, и всё пока. был ещё аэроспайк, но ушёл в историю.

изначальная цель была заменить dist-cp, а щас эта штука уже стала поинтереснее. по крайней мере, сильно быстрее, и умеет сливать паркеты

источник

18:38пожаловаться #2

2021 April 21

Ж

Жмака in Data Engineers

Всем привет. Вопрос по возможной архитектуре, которую сейчас обсуждаем в компании. Есть на данный момент питоновские воркеры, которые подключаются с токенами к 7000 аккаунтам. Данных немного (несколько 10 тысяч строк). Время ограниченно 15-ю минутами для каждого батча. Под кубернетеса обслуживают эти воркеры питона. Необходимо улучшить архитектуру, чтобы уложиться в 15 минут. Кто то сталкивался с подобным? Поделитесь опытом и идеями
🙂

источник

11:20пожаловаться #3

e

er@essbase.ru in Data Engineers

Только сегодня читал статью, что в задаче перформанса все почему-то придумывают новые слои виртуализации, вместо того , что бы выкинуть лишнее

источник

11:49пожаловаться #4

T

T in Data Engineers

А из за чего сейчас не укладывается? Данные из веков можно получать параллельно или они связаны?

источник

12:31пожаловаться #5

Ж

Жмака in Data Engineers

Параллельно. Вопрос как архитектурно правильно создать инфраструктуру, которая позволит параллельно подключаться к 7000 аккаунтам и вытягивать данные.

источник

12:33пожаловаться #6

B

Bohdan in Data Engineers

всем привет
Господа, а кто-то видел опенсорс сборку scylladb с ldap?

источник

12:35пожаловаться #7

АА

Алексей Артамонов... in Data Engineers

всем привет. кто-то сталкивался с ошибкой Exception in thread "main" java.lang.ExceptionInInitializerError?

источник

12:35пожаловаться #8

T

T in Data Engineers

А 7к это фиксированное число или будет варьироваться? Сколько уходит времени на 1 акк?

источник

12:38пожаловаться #9

Ж

Жмака in Data Engineers

Будет варьироваться. На данный момент количество аккаунтов не увеличивается, поэтому около 7 тысяч. По времени в среднем по 15 минут на аккаунт но есть пики когда больше. Установили максимум 15 минут на аккаунт: получение токена из редиса, подключение к аккаунту, получение данных, обогащение и сохранение в дата сторе

источник

12:41пожаловаться #10

r

romλn in Data Engineers

Всем привет, есть у кого-то опыт в проде с Apache Phoenix?

источник

12:47пожаловаться #11

N

Nikita Blagodarnyy in Data Engineers

Есть.

источник

12:48пожаловаться #12

T

T in Data Engineers

Понял, идейно над простой мэпер сделать. Как это делать в контексте куба не знаю 😂 но наверное просто вы читать аки из базы нарезать их на чанки и подкаждый чанк наплодить подов

источник

12:49пожаловаться #13

Ж

Жмака in Data Engineers

Тут не одна база, а 7000 источников-аккаунтов, точнее 7000 endpoints

источник

12:54пожаловаться #14

e

er@essbase.ru in Data Engineers

пускай вам выкладывают

источник

13:00пожаловаться #15

Ж

Жмака in Data Engineers

Невозможно

источник

13:14пожаловаться #16

T

T in Data Engineers

А откуда приходит количество акков?

источник

13:25пожаловаться #17

T

T in Data Engineers

Как ты получаешь эти 7к ендпоинтов ?

источник

13:26пожаловаться #18

e

er@essbase.ru in Data Engineers

ну стандартные мап-редюс задачи делают || загрузку из источника

можно сделать ручные асинхронные задачи для запуска скриптов на любом языке

а базенка то выдержит одномоментных 7 тыс выгрузок ?

мне кажется что для обработки 20 потоков нужен будет один камень, т.е.нужно будет арендовать кластер из 350 камней на 15 минут

источник

13:27пожаловаться #19

Ж

Жмака in Data Engineers

Это просто аккаунты твиттера, фейсбука, api. Они просто записаны в базе

источник

13:27пожаловаться #20