📋
Пост в группе
Мехмат МГУ:
Ищем волонтеров для проекта Диссернет. Работа не оплачивается, однако имеет смысл в свете рекомендаций, опыта, строчки в резюме и удовлетворения от служения высшей цели чистоты российской науки
Имеется следующая задача:
Написать скрипт, который будет получать на вход текстовые раскраски типа
http://wiki.dissernet.org/w/MezhidovaDV2012.html http://wiki.dissernet.org/wsave/MezhidovaDV2012.html http://wiki.dissernet.org/w/PescherovVG2011.html http://wiki.dissernet.org/wsave/PescherovVG2011.html и выдавать на выходе схему с визуальным указанием заимствованного текста (на нынешний момент все
это делают волонтеры руками), — в случае заинтересованности направим пример.
Проблемы и пояснения:
1) Распознавание ПДФ несовершенно, в нем много ошибок. Вместе с тем,
визуально ПДФки вполне убедительны для human reader. Для подачи
заявлений о лишении ученой степени (далее — ЗоЛУС) необходимо
демонстрировать визуальное совпадение крупных блоков текстов (размером начиная от абзаца), желательно последовательно идущих (страницу 5 списали с 25 и 26, 6 — с 26 и 27...). Последовательность списывания можно проверить и по электронным раскраскам (можно сразу вытащить таблицу скриптом
http://wiki.dissernet.org/tools/diszolus.html).
Отождествление визуальных кусков должно быть нечувствительно к
случайным ошибкам файнридера (псевдознаки, лишние пробелы, отдельные
непрочитанные буквы). Отождествление маленьких кусков (меньше 1
фразы), и кусков с большим количеством чересполосицы (тут совпало, тут
не совпало) имеет отрицательный эффект и должно исключаться
2) При этом отождествление текстов не должно игнорировать системные
замены ("мясо - > шоколад", "2007 -> 2010"), напротив, они должны быть
особо выделены, так как одной такой замены при неизменных фактических
данных хватает на целый золус. Довольно часто (но не всегда) в комментарии диссернета в раскраске будет указано, что в кейсе есть
такая замена
3) Что делать со стилистическими правками (убранные/вставленные ссылки на литературу, измененные вводные слова, сокращение/расползание текста при копипасте) — спорный вопрос. В приложенном примере (Пещеров, стр. 1 и 10) волонтер тщательно указал в каждом большом совпадающем куске все мелкие разночтения. Полагаю, что для широко автоматизированной деятельности этого будет сложно добиться, т.к. в какой-то момент машина начнет отождествлять совершенно несовпадающие куски. Поэтому полагаю в первой версии скрипта считать такие случаи, как на стр. 1 и 10 Пещерова — несовпадающими текстами. По всей видимости, если количество страниц раскраски, которые будут признаны убедительными скриптом, будет сильно меньше, чем количество страниц в текстовой раскраске, она будет передаваться живому волонтеру для традиционной ручной обработки или даже для выбраковки
4) Важно ловить тождество таблиц и рисунков, которые как раз теряются
в стандартной текстовой раскраске
В случае заинтересованности или дополнительных вопросов пишите в личку или на tatiana.sukhanova@gmail.com
— Автор:
Татьяна Суханова