Как различать британскую и американскую литературу с помощью машинного обучения
https://habrahabr.ru/post/319826/?utm_source=habrahabr&utm_medium=rss&utm_campaign=hubОднажды мне стало интересно, отличается ли британская и американская литература с точки зрения выбора слов, и если отличается, удастся ли мне обучить классификатор, который бы различал литературные тексты с точки зрения частоты использованных слов. Различать тексты, написанные на разных языках, довольно легко, мощность пересечения множества слов небольшая относительно множества слов в выборке. Классификация текста по категориям «наука», «христианство», «компьютерная графика», «атеизм», — всем известный hello world (
http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html) среди задач по работе с частотностью текста. Передо мной стояла более сложная задача, так как я сравнивала два диалекта одного языка, а тексты не имели общей смысловой направленности.