apex
короче надо гуглить что-то типа разреженных матриц и итерационных методов решения ИМХО
Задача преобразования текстов в частоты всегда сводится к разреженным матрицам, все это уже работает в обычном count vectorizer... В задаче 6 курса векторизация проводится с помощью scipy.sparse.csr_matrix, но там тоже использовался словарь для индексов и слов...В любом случае O(m+n) это k*(m+n) +C операций... Так, размышления на тему...