Size: a a a

2021 November 06

kk

k k in Data Engineers
Да
источник

В

Вячеслав in Data Engineers
OCR, как и любое другое распознавание текста с картинок…
источник

AN

Andrew Nasonov in Data Engineers
Привет. Кто-нибудь из присутсвующих здесь дата дам и дата господ работал с timescaledb? У меня складывается ощущение, что я его как-то неправильно готовлю. Есть гипертабличка, я собираю по ней агрегаты по времени:
select time_bucket('1 hour', dttm) as dttm, region, sum(value) from table group by dttm, region
И вот такая штука собирается на гипертабличке медленнее, чем на обычной табличке обвешенной btree индексом по dttm. Я что-то делаю не так, или я неправильно понимаю юзкейс таймскела?
источник

МК

Михаил Кулаков... in Data Engineers
Если просто номер, то я для таких целей успешно tesseract использовал. Есть пыхтоновская удобная обёртка
источник

kk

k k in Data Engineers
Спасибо, подумаю
источник

H

HK416 140316 in Data Engineers
источник

ЕГ

Евгений Глотов... in Data Engineers
источник
2021 November 07

В

Вадим in Data Engineers
источник

В

Вадим in Data Engineers
источник

А

Артем in Data Engineers
Добрый день, подскажите плз, начал изучать apache spark, будет ли правильно использовать его локально (master=local), в качестве переноса данных из бд в хадуп) дергать метод по переносу буду через рест )
источник

A

Alex in Data Engineers
Может лучше спринг тогда?
источник

D

Dmitry in Data Engineers
если нужно писать на hdfs то нужно будет запустить парк через spark-submit скрипт в режиме yarn-cluster или yarn-client, что бы спарк в кластере запустился
источник

D

Dmitry in Data Engineers
локально можно тесты написать, код отладить, но что бы записать на hdfs, в ярне пускать надо
источник

D

Dmitry in Data Engineers
хотя еще можно через попу jdbc коннекций к hive, но это не столь эффективно. зато наверно проще
источник

А

Артем in Data Engineers
Ну у меня будет spring boot приложение с подключенными зависимостями spark SQL core hive, далее создам restcontroller который будет брать с контекста Спринга Бин Sparksession с master local, далее буду получать dataset с бд и делать write в hive hdfs
источник

A

Alex in Data Engineers
Не обязательно

Достаточно конфиг чтобы подключиться к hdfs и все

Можно хоть в памяти Configuration объект создать
источник

А

Артем in Data Engineers
Просто везде пишут что локально чисто для теста и дебага создано)) обязательное нужно запускать на yarn в кластере hdfs
источник

D

Dmitry in Data Engineers
hive и hdfs штуки разные. для начала определись куда записать надобно
источник

А

Артем in Data Engineers
Почему разные ? Hive работает поверх hdfs , разве нет ?
источник

D

Dmitry in Data Engineers
да. но к чему ты коннектится собрался, к hive по jdbc или к hdfs напрямую ?
источник