Телеграмм чат группы hadoopusers страница 4472

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

3284 membersпожаловаться на группу

2021 November 09

N

Nikolay in Data Engineers

Посоветуйте какие есть подходы к сравниванию 2х адресов на похожесть. Кроме SequenceMatcher и Levenshtein distance. Хочется именно алгоритм для адресов т.е чтобы алгоритм знал, что он именно адреса сравнивает, а не просто строки. Аккуратности указанных 2х не достаточно для нас.

источник

17:10пожаловаться #1

N

Nikita Blagodarnyy in Data Engineers

dadata

источник

17:14пожаловаться #2

RI

Rustam Iksanov in Data Engineers

+

источник

17:14пожаловаться #3

N

Nikolay in Data Engineers

Спасибо. если правильно понял, то это сервис такой. Мне нужен скорее алгоритм.

источник

17:20пожаловаться #4

DZ

Dmitry Zuev in Data Engineers

Ner+ любой vector distance

источник

17:25пожаловаться #5

DZ

Dmitry Zuev in Data Engineers

Была такая поделка lib address

источник

17:26пожаловаться #6

DZ

Dmitry Zuev in Data Engineers

https://github.com/openvenues/libpostal

GitHub - openvenues/libpostal: A C library for parsing/normalizing street addresses around the world. Powered by statistical NLP and open geo data.

A C library for parsing/normalizing street addresses around the world. Powered by statistical NLP and open geo data. - GitHub - openvenues/libpostal: A C library for parsing/normalizing street addr...

источник

17:26пожаловаться #7

N

Nikita Blagodarnyy in Data Engineers

Ну сходство жаро винклера ещё есть

источник

17:26пожаловаться #8

DZ

Dmitry Zuev in Data Engineers

Такая ещё

источник

17:27пожаловаться #9

N

Nikolay in Data Engineers

Спасибо. выглядит интересно.

источник

17:40пожаловаться #10

DZ

Dmitry Zuev in Data Engineers

работает хуево

источник

17:42пожаловаться #11

TC

Tasty Cake in Data Engineers

Доброго дня и вечера. При попытке вывода списка партиций в delta таблице через SHOW PARTITIONS идет ошибка org.apache.spark.sql.AnalysisException: SHOW PARTITIONS cannot run for a table which does not support partitioning;
ShowPartitions. Нагуглил что для V2 таблиц лучше использовать listPartitionsByNames() метод. Но что-то нигде не могу найти пример с этим методом. Кто-то сталкивался с такой ситуацией? Как вы решили?

источник

18:25пожаловаться #12

T

T in Data Engineers

А парсил ли кто-нибудь аутпут спарковского explain?

источник

19:55пожаловаться #13

T

T in Data Engineers

Может попадались либы

источник

19:55пожаловаться #14

T

T in Data Engineers

Знаю что хочу странного

источник

19:55пожаловаться #15

NN

No Name in Data Engineers

Если не ошибаюсь, то план запроса окончательный каталистом формируется, мб его попарсить.

источник

19:58пожаловаться #16

AE

Alexey Evdokimov in Data Engineers

антересно, чтобы подсмотреть чё он делает, или зачем?

источник

20:00пожаловаться #17

NN

No Name in Data Engineers

Лайнедж, наверное

источник

20:00пожаловаться #18

T

T in Data Engineers

Ну вот у меня есть только логи, в виде текста. Там есть SQL для него я парсер уже нагавнякал. А вот от спарка хранятся только вывод explain думаю как бы его по парсить

источник

20:01пожаловаться #19

T

T in Data Engineers

У меня триллион команд в огромной организации которые кверят даные я хочу понять какие условия они используют чаще всего

источник

20:02пожаловаться #20