Size: a a a

2021 April 20

AE

Alexey Evdokimov in Data Engineers
да он частично написан уже у меня, просто не собран в кучу. там же и всё остальное моё поделие. пилю щас запись в паркет, заодно и эту болячку хочу пофиксить
источник

AE

Alexey Evdokimov in Data Engineers
будет через пару недель отдельная утилита, чтобы писать в/из емровского хдфса через все нативные filesystem и типа "плагины" как раз на пару сотен строк. jdbc, чужие s3, и всё пока. был ещё аэроспайк, но ушёл в историю.

изначальная цель была заменить dist-cp, а щас эта штука уже стала поинтереснее. по крайней мере, сильно быстрее, и умеет сливать паркеты
источник
2021 April 21

Ж

Жмака in Data Engineers
Всем привет. Вопрос по возможной архитектуре, которую сейчас обсуждаем в компании. Есть на данный момент питоновские воркеры, которые подключаются с токенами к 7000 аккаунтам. Данных немного (несколько 10 тысяч строк). Время ограниченно 15-ю минутами для каждого батча. Под кубернетеса обслуживают эти воркеры питона. Необходимо улучшить архитектуру, чтобы уложиться в 15 минут. Кто то сталкивался с подобным? Поделитесь опытом и идеями
🙂
источник

e

er@essbase.ru in Data Engineers
Только сегодня читал статью, что в задаче перформанса все почему-то придумывают новые слои виртуализации, вместо того , что бы выкинуть лишнее
источник

T

T in Data Engineers
А из за чего сейчас не укладывается? Данные из веков можно получать параллельно или они связаны?
источник

Ж

Жмака in Data Engineers
Параллельно. Вопрос как архитектурно правильно создать инфраструктуру, которая позволит параллельно подключаться к 7000 аккаунтам и вытягивать данные.
источник

B

Bohdan in Data Engineers
всем привет
Господа, а кто-то видел опенсорс сборку scylladb с ldap?
источник

АА

Алексей Артамонов... in Data Engineers
всем привет. кто-то сталкивался с ошибкой Exception in thread "main" java.lang.ExceptionInInitializerError?
источник

T

T in Data Engineers
А 7к это фиксированное число или будет варьироваться? Сколько уходит времени на 1 акк?
источник

Ж

Жмака in Data Engineers
Будет варьироваться. На данный момент количество аккаунтов не увеличивается, поэтому около 7 тысяч. По времени в среднем по 15 минут на аккаунт но есть пики когда больше. Установили максимум 15 минут на аккаунт: получение токена из редиса, подключение к аккаунту, получение данных, обогащение и сохранение в дата сторе
источник

r

romλn in Data Engineers
Всем привет, есть у кого-то опыт в проде с Apache Phoenix?
источник

N

Nikita Blagodarnyy in Data Engineers
Есть.
источник

T

T in Data Engineers
Понял, идейно над простой мэпер сделать. Как это делать в контексте куба не знаю 😂 но наверное просто вы читать аки из базы нарезать их на чанки и подкаждый чанк наплодить подов
источник

Ж

Жмака in Data Engineers
Тут не одна база, а 7000 источников-аккаунтов, точнее 7000 endpoints
источник

e

er@essbase.ru in Data Engineers
пускай вам выкладывают
источник

Ж

Жмака in Data Engineers
Невозможно
источник

T

T in Data Engineers
А откуда приходит количество акков?
источник

T

T in Data Engineers
Как ты получаешь эти 7к ендпоинтов ?
источник

e

er@essbase.ru in Data Engineers
ну стандартные мап-редюс задачи делают || загрузку из источника

можно сделать ручные асинхронные задачи для запуска скриптов на любом языке

а базенка то выдержит одномоментных 7 тыс выгрузок ?

мне кажется что для обработки 20 потоков нужен будет один камень, т.е.нужно будет арендовать  кластер из 350 камней на 15 минут
источник

Ж

Жмака in Data Engineers
Это просто аккаунты твиттера, фейсбука, api. Они просто записаны в базе
источник