Size: a a a

2021 November 09

N

Nikolay in Data Engineers
Посоветуйте какие есть подходы к сравниванию 2х адресов на похожесть. Кроме SequenceMatcher и Levenshtein distance. Хочется именно алгоритм для адресов т.е чтобы алгоритм знал, что он именно адреса сравнивает, а не просто строки.  Аккуратности указанных 2х не достаточно для нас.
источник

N

Nikita Blagodarnyy in Data Engineers
dadata
источник

RI

Rustam Iksanov in Data Engineers
+
источник

N

Nikolay in Data Engineers
Спасибо. если правильно понял, то это сервис такой. Мне нужен скорее алгоритм.
источник

DZ

Dmitry Zuev in Data Engineers
Ner+ любой vector distance
источник

DZ

Dmitry Zuev in Data Engineers
Была такая поделка lib address
источник

DZ

Dmitry Zuev in Data Engineers
источник

N

Nikita Blagodarnyy in Data Engineers
Ну сходство жаро винклера ещё есть
источник

DZ

Dmitry Zuev in Data Engineers
Такая ещё
источник

N

Nikolay in Data Engineers
Спасибо. выглядит интересно.
источник

DZ

Dmitry Zuev in Data Engineers
работает хуево
источник

TC

Tasty Cake in Data Engineers
Доброго дня и вечера. При попытке вывода списка партиций в delta таблице через SHOW PARTITIONS идет ошибка org.apache.spark.sql.AnalysisException: SHOW PARTITIONS cannot run for a table which does not support partitioning;
ShowPartitions. Нагуглил что для V2 таблиц лучше использовать listPartitionsByNames() метод. Но что-то нигде не могу найти пример с этим методом. Кто-то сталкивался с такой ситуацией? Как вы решили?
источник

T

T in Data Engineers
А парсил ли кто-нибудь аутпут спарковского explain?
источник

T

T in Data Engineers
Может попадались либы
источник

T

T in Data Engineers
Знаю что хочу странного
источник

NN

No Name in Data Engineers
Если не ошибаюсь, то план запроса окончательный каталистом формируется, мб его попарсить.
источник

AE

Alexey Evdokimov in Data Engineers
антересно, чтобы подсмотреть чё он делает, или зачем?
источник

NN

No Name in Data Engineers
Лайнедж, наверное
источник

T

T in Data Engineers
Ну вот у меня есть только логи, в виде текста. Там есть SQL для него я парсер уже нагавнякал. А вот от спарка хранятся только вывод explain  думаю как бы его по парсить
источник

T

T in Data Engineers
У меня триллион команд в огромной организации которые кверят даные я хочу понять какие условия они используют чаще всего
источник