Gennady Borisov
Товарищи у меня вопрос. Вводные: Есть много временных рядов с виду похожих друг на друга. Я хочу найти среди них действительно похожие. Какой параметр статистический нужно взять чтобы доказать количественно похожесть временных рядов друг на друга. Корректно ли считать корреляции между ними? Либо есть какие-то другие статистические инструмены?
у меня в свое время получилось неплохо кластеризовать ряды с помощью агломеративной кластеризации. Но, тут нужно сначала отнормировать значения рядов на 1(чтобы можно было сравнивать и строить на плоскости), выделить временной промежуток ( я брал месяц (24*30 точек) и вырезать соответствующие фрагменты (если использовать всю длину, то может негативно сказаться "проклятье размерности", слишком много координат для евклидова расстояния, я брал 30 точен). Далее я просто находил центры кластеров через усреднение, а качество построенных кластеров смотрел визуально, изображая все фрагменты на плоскости. Проверял по суммарному расстоянию от центра кластера и среднему расстоянию от центра. Количество кластеров изначально прикинул через elbow rule и коэффициент силуэта (посмотрите библиотеку yellowbrick). Довольно быстро удалось сгруппировать ряды по степени похожести, выделить наиболее похожие.