Телеграмм чат группы fprog

Я готовлю доклад на конференцию по задаче идентификации авторства и методам обхода DLP систем. Мне нужно протестировать свое решение на анонимизированной корпоративной переписке с формальным стилем сообщений и связью авторов между собой. Сбербанк данные не дает, а задачи студентам ставит((
Твиты, на которых я уже сделала прототип, не очень подходят по методологической причине. Во-первых, разрозненные блоги не учитывают связь авторов между собой, вероятность наличия общих фраз, характерных для данной группы. Во-вторых, модель получится не робастная к «стилистической маске», однородному стилю всех авторов. Я могла бы использовать корпус сообщений политиков, украденный хакерами из Кремля, но не хочу проблем. Было бы отлично взять чью-то переписку на google groups, поскольку она и так публичная и 152-ФЗ, 272 УК там не будет. Но я все равно на всякий случай заменю все имена собственные, числа и др. чувствительные данные специальными токенами, а авторов переписки безликими номерами.
У google groups нет API для парсинга, поэтому спрашиваю сейчас у знакомых организаторов коммьюнити

О, вы тоже занимаетесь DLP.

источник

17:41пожаловаться #13

АГ

Александр Гранин in fprog_spb

И анализом авторства :)
У меня такое сильное дежа вю

источник

17:42пожаловаться #14

Aλice in fprog_spb

А вы занимались анализом авторства кода или текстов на естественном языке?)

источник

17:42пожаловаться #15

Yuriy Syrovetskiy in fprog_spb

Alexander Vershilov

все решили что gitter круче

она умерла раньше, чем гиттер родился

источник

17:43пожаловаться #16

Alexander Vershilov in fprog_spb

я про ruhaskell

источник

17:43пожаловаться #17

Alexander Vershilov in fprog_spb

https://groups.google.com/forum/#!forum/haskell-russian

Google

Google Groups

Google Groups allows you to create and participate in online forums and email-based groups with a rich experience for community conversations.

источник

17:44пожаловаться #18

Yuriy Syrovetskiy in fprog_spb

а архивы всяких юзнетов и прочих фидо не подойдут?

источник

17:44пожаловаться #19

АГ

Александр Гранин in fprog_spb

Aλice

А вы занимались анализом авторства кода или текстов на естественном языке?)

Я делал диплом в универе, который распознавал авторство. Точнее - я сделал алгоритм, который как-то работал. Лучше, чем подбрасывание монетки, но детально я его не тестировал.

А в Лаборатории Касперского я занимался созданием DLP систем. Ну и тестированием их тоже.

источник

17:44пожаловаться #20