Я готовлю доклад на конференцию по задаче идентификации авторства и методам обхода DLP систем. Мне нужно протестировать свое решение на анонимизированной корпоративной переписке с формальным стилем сообщений и связью авторов между собой. Сбербанк данные не дает, а задачи студентам ставит((
Твиты, на которых я уже сделала прототип, не очень подходят по методологической причине. Во-первых, разрозненные блоги не учитывают связь авторов между собой, вероятность наличия общих фраз, характерных для данной группы. Во-вторых, модель получится не робастная к «стилистической маске», однородному стилю всех авторов. Я могла бы использовать корпус сообщений политиков, украденный хакерами из Кремля, но не хочу проблем. Было бы отлично взять чью-то переписку на google groups, поскольку она и так публичная и 152-ФЗ, 272 УК там не будет. Но я все равно на всякий случай заменю все имена собственные, числа и др. чувствительные данные специальными токенами, а авторов переписки безликими номерами.
У google groups нет API для парсинга, поэтому спрашиваю сейчас у знакомых организаторов коммьюнити
О, вы тоже занимаетесь DLP.