Для таска по language identification: Алгоритм должен выделить все англо- и русскоязычные тексты, остальные языки не являются релевантными для данного этапа конкурса.
Для всех остальных тасков:
Работы будут проверяться на англо- и русскоязычных текстах.
ладно, может я неясно выразился: такое решение тупое, я его не использую, но если представить, что в тестах статьи только на двух языках, то этого достаточно
В случае с русским не забывайте про другие языки с кириллицей: белорусский, украинский и другие. В случае английского языки, соответственно, на латинице: польский, немецкий и другие. Есть такие варианты, когда абсолютно все символы входят в алфавит, но не написаны на нужном языке.