это все специфические детали задачи о которой и не спрашивается пока (есть json и т.д.). есть общее направление — обработка временных событий. Есть ряд технологий. дальше поехали частности
при чем здесь проще и банки? можно вообще не думать. и зачем со мной спорить? есть автор задачи — хочет, читает. не хочет — не читает. тематика никак от этого не пострадает.
кстати, про телегу ничего сказано не было — просто json.
Так просто пытаюсь добавить и свои очевидные соображения по этому поводу. telegram desktop в json выгружает сообщения. А вот как смысл из них извлечь - уже задача.
окей, автор. отступление про process minging - ложный путь.
После того как образуются достаточно длинные тексты, можно использовать то что в NLP накопили. - классический bag of words и кластеризацию типа t-sne. - специальный модуль для визуализации поинтереснее есть - pyLDAvis - поскольку короткие сообщения в чате не содержат много информации самой по себе, а подразумевают много контекста, желательно пропустить через какой-нибудь модный алгоритм преобразующий человеческие слова в embeddings. И снова делать там t-sne.
Павел, мне нравится Ваш стиль! Возражать всегда и во всем.
есть несколько НО. 1. не было ни примера данных ни слов про телегу. там может быть все, что угодно. 2. еще был вопрос про визуализацию. 3. если говорить про такие чаты, то не reply сообщения могут быть ответом почти на что угодно. на сообщение годичной давности! можно кубик кидать — примерно такая же вероятность угадать. 4. прежде чем говорить о NLP идет чистка текста регулярками. да-да, толпа регулярок... грусть-тоска.
в целом, стратегия анализа коротких сообщений на практике так себе идея. в случае всяких смс/твитов или заявок в SD иногда даже человек не может понять, что же там было написано. если говорить про реальный бизнес и реальные задачи.
вот именно, пробовать. почти все задачи похожи в исходной постановке и разнятся в способах решения. а что, цифры гоняем туда-сюда. но тут ведь совет был спрошен.