Ну т.е. всё указано в гросс и я так понимаю не везде 6%. Или везде. Гг. Это чо, кто то говорит при найме на удаленку hr-агентству гросс вилку на вакансию? Зачем?
И это тоже паттерн. Если весь док заглавными не описан. Возможно, придется для повышения чувствительности и специфичности по словарику прогнать дополнительно кандидатов на замазывание
А реально ли по морфологическим признакам фамилии распознавать? Кажется, люди примерно так и делают (помимо того, что у них в башке словарик огромный).
Ну если только большой словарик. К нам пришел товарищ с фамилией Цух. Имхо надежнее на заглавные буквы глядеть и паттерны буква-точка-буква-точка. Нижние подчеркивания должны учитываться ( поля для заполнения)
Товарищу нужен результат и исполнитель. А что делать - описать лень. Например, зачем в DOC файле замазывать, если можно вырезать, ну и PDF тоже текстовые бывают