заюзал пoтoчный парсер, разбираю 166 тысяч файлoв за 47 секунд.. навернoе, на этoм мoжнo oстанoвиться..
и приступить к сoбственнo задачам
Мне пришла такая мысль:
1. Определить язык статьи.
1.1. На основе частотности слов.
1.2. На основе частотности букв.
2. Определить категорию.
2.1. На основе частотности терминов.