Возник еще такой вопрос. Нужно удалить со строки все кроме самого текста (тире, точки, запятые и тд) и порезать её на слова. Для последнего сплит как я понял, а для первого что лучше? Лишние пробелы тоже считаются получается. Значит в конце нужно еще и их удалить потому что их split(" ") зацепит