Телеграмм чат группы hadoopusers страница 4465

Size: a a a

Data Engineers

3284 membersпожаловаться на группу

2021 November 06

k k in Data Engineers

Да

источник

16:37пожаловаться #1

Вячеслав in Data Engineers

OCR, как и любое другое распознавание текста с картинок…

источник

16:41пожаловаться #2

Andrew Nasonov in Data Engineers

Привет. Кто-нибудь из присутсвующих здесь дата дам и дата господ работал с timescaledb? У меня складывается ощущение, что я его как-то неправильно готовлю. Есть гипертабличка, я собираю по ней агрегаты по времени:
select time_bucket('1 hour', dttm) as dttm, region, sum(value) from table group by dttm, region
И вот такая штука собирается на гипертабличке медленнее, чем на обычной табличке обвешенной btree индексом по dttm. Я что-то делаю не так, или я неправильно понимаю юзкейс таймскела?

источник

19:28пожаловаться #3

МК

Михаил Кулаков... in Data Engineers

Если просто номер, то я для таких целей успешно tesseract использовал. Есть пыхтоновская удобная обёртка

источник

20:24пожаловаться #4

k k in Data Engineers

Спасибо, подумаю

источник

21:30пожаловаться #5

HK416 140316 in Data Engineers

источник

21:49пожаловаться #6

ЕГ

Евгений Глотов... in Data Engineers

2021 November 07

Вадим in Data Engineers

источник

01:50пожаловаться #8

Вадим in Data Engineers

@fall_out_bug

источник

01:50пожаловаться #9

Артем in Data Engineers

Добрый день, подскажите плз, начал изучать apache spark, будет ли правильно использовать его локально (master=local), в качестве переноса данных из бд в хадуп) дергать метод по переносу буду через рест )

источник

16:09пожаловаться #10

Alex in Data Engineers

Может лучше спринг тогда?

источник

17:34пожаловаться #11

Dmitry in Data Engineers

если нужно писать на hdfs то нужно будет запустить парк через spark-submit скрипт в режиме yarn-cluster или yarn-client, что бы спарк в кластере запустился

источник

17:40пожаловаться #12

Dmitry in Data Engineers

локально можно тесты написать, код отладить, но что бы записать на hdfs, в ярне пускать надо

источник

17:41пожаловаться #13

Dmitry in Data Engineers

хотя еще можно через попу jdbc коннекций к hive, но это не столь эффективно. зато наверно проще

источник

17:42пожаловаться #14

Артем in Data Engineers

Ну у меня будет spring boot приложение с подключенными зависимостями spark SQL core hive, далее создам restcontroller который будет брать с контекста Спринга Бин Sparksession с master local, далее буду получать dataset с бд и делать write в hive hdfs

источник

17:43пожаловаться #15

Alex in Data Engineers

Не обязательно

Достаточно конфиг чтобы подключиться к hdfs и все

Можно хоть в памяти Configuration объект создать

источник

17:44пожаловаться #16

Артем in Data Engineers

Просто везде пишут что локально чисто для теста и дебага создано)) обязательное нужно запускать на yarn в кластере hdfs

источник

17:45пожаловаться #17

Dmitry in Data Engineers

hive и hdfs штуки разные. для начала определись куда записать надобно