У сюжетов две проблемы
1.Есть дубли, когда одна и та же новость копируется с рерайтом на разных СМИ день в день или через день. Это копирование не несет новой информации.
2. Каждый день даже на одном СМИ может выходить новость на одну тему - например, ликвидация наводнения Иркутске. Содержание этих новостей может сильно отличаться, как по обьему текста, так и по содержанию.
И вот просто отсеять дубли и действительно новые данные по теме нетривиально. И простыми алгоритмами вообще легко спутать в одну группу наводнение в Иркутске и в каком-то другом городе или стране.
По п. 1 вам не требуется избавляться от дублей. Нет такой задачи.
По п. 2 не ясно зачем вообще нужно учитывать объем текста. А наводнение а Иркутске и другом городе все же один инфоповод, называется наводнения в мире. Можно и так интерпретировать. Уверен, есть те, кто этим интересуется. Так что все нормально, вроде