Size: a a a

2020 October 13

AA

Anton Alekseev in Data Engineers
Renarde
вкратце по коду:
- подаешь на вход датафрейм с объектами, собираешь фичи в features колонку
- устанавливаешь K - число групп в которые ты собираешь объекты (приблизительно)
- прогоняешь fit по датафрейму
- прогоняешь predict по датафрейму
из предикта видишь # кластера по объекту
отмаштабировать фичи не забудьте
источник

AE

Alexey Evdokimov in Data Engineers
с K == 1 получится выбрать для всего датасета?
источник

AE

Alexey Evdokimov in Data Engineers
в котором ???M записей как я сказал
источник

AA

Anton Alekseev in Data Engineers
вы тогда просто центр всего множеста получите, соседей все равно искать придется вручную.
источник

AE

Alexey Evdokimov in Data Engineers
поля все типа double, но в принципе нормализуются
источник

AE

Alexey Evdokimov in Data Engineers
мне в любом случае нужно выбрать конкретный % существующих записей, а не какое-то "среднее"
источник

AE

Alexey Evdokimov in Data Engineers
то есть из ???M выбрать ???k "самых типичных"
источник

R

Renarde in Data Engineers
Alexey Evdokimov
то есть из ???M выбрать ???k "самых типичных"
посчитать расстояния между центрами и объектами
источник

AE

Alexey Evdokimov in Data Engineers
просто как бы, если всё равно придётся перебирать все, то кажется, что проще будет поделить на интервалы, и как я сказал, поискать пересечение мод
источник

AA

Anton Alekseev in Data Engineers
Можно пойти через матрицу попарных расстояний, или откластеризовать, и считать не попарные расстояния, а соседей по кластеру.
источник

AE

Alexey Evdokimov in Data Engineers
по крайней мере с вычислительной точки зрения это звучит проще
источник

AE

Alexey Evdokimov in Data Engineers
это вот попарные расстояния шибко дороговато будет на ???М записей искать
источник

AA

Anton Alekseev in Data Engineers
ну к-минс такой себе в оптимальности:)
источник

AA

Anton Alekseev in Data Engineers
Alexey Evdokimov
это вот попарные расстояния шибко дороговато будет на ???М записей искать
да, 100% это дорого
источник

R

Renarde in Data Engineers
Alexey Evdokimov
это вот попарные расстояния шибко дороговато будет на ???М записей искать
"вам шашечки или ехать"
источник

AE

Alexey Evdokimov in Data Engineers
нам ехать. но бабла на бензин мало
источник

AE

Alexey Evdokimov in Data Engineers
ну, ясно.

спасибо
источник

AE

Alexey Evdokimov in Data Engineers
опять придётся запилить очередной велосипед :/
источник

AE

Alexey Evdokimov in Data Engineers
не быть мне настоящим дата инженегром.
источник

R

Renarde in Data Engineers
Alexey Evdokimov
не быть мне настоящим дата инженегром.
справедливости ради, эта задача не похожа на датаинженерную 🙂
источник