Size: a a a

2019 March 14

A

Aλice in fprog_spb
Русскоязычную, потому что методы для русского языка требуют научного поиска, а для английского уже хорошая точность
источник

AV

Alexander Vershilov in fprog_spb
ещё можно всякие околотехнические форумы
источник

L

Leyla in fprog_spb
Есть haskell гугл группа
источник

AV

Alexander Vershilov in fprog_spb
русскоязычкая умерла вроде
источник

AV

Alexander Vershilov in fprog_spb
все решили что gitter круче
источник

AV

Alexander Vershilov in fprog_spb
и discourse
источник

AV

Alexander Vershilov in fprog_spb
но и то и другое тоже умерло
источник

A

Aλice in fprog_spb
Ладно. Зато можно уведомления от чатов ФП не отключать, потому что нет потока информационного шума:)
источник

L

Leyla in fprog_spb
https://groups.google.com/forum/m/#!forum/spbhug в целом да, мертвая
источник

L

Leyla in fprog_spb
Есть еще слэк каналы всякие открытые, типа про котлин
источник

L

Leyla in fprog_spb
В тг знаю про катбуст
источник

A

Aλice in fprog_spb
Спасибо, поищу)
источник

АГ

Александр Гранин in fprog_spb
Aλice
Я готовлю доклад на конференцию по задаче идентификации авторства и методам обхода DLP систем. Мне нужно протестировать свое решение на анонимизированной корпоративной переписке с формальным стилем сообщений и связью авторов между собой. Сбербанк данные не дает, а задачи студентам ставит((
Твиты, на которых я уже сделала прототип, не очень подходят по методологической причине. Во-первых, разрозненные блоги не учитывают связь авторов между собой, вероятность наличия общих фраз, характерных для данной группы. Во-вторых, модель получится не робастная к «стилистической маске», однородному стилю всех авторов. Я могла бы использовать корпус сообщений политиков, украденный хакерами из Кремля, но не хочу проблем. Было бы отлично взять чью-то переписку на google groups, поскольку она и так публичная и 152-ФЗ, 272 УК там не будет. Но я все равно на всякий случай заменю все имена собственные, числа и др. чувствительные данные специальными токенами, а авторов переписки безликими номерами.
У google groups нет API для парсинга, поэтому спрашиваю сейчас у знакомых организаторов коммьюнити
О, вы тоже занимаетесь DLP.
источник

АГ

Александр Гранин in fprog_spb
И анализом авторства :)
У меня такое сильное дежа вю
источник

A

Aλice in fprog_spb
А вы занимались анализом авторства кода или текстов на естественном языке?)
источник

YS

Yuriy Syrovetskiy in fprog_spb
Alexander Vershilov
все решили что gitter круче
она умерла раньше, чем гиттер родился
источник

AV

Alexander Vershilov in fprog_spb
я про ruhaskell
источник

AV

Alexander Vershilov in fprog_spb
источник

YS

Yuriy Syrovetskiy in fprog_spb
а архивы всяких юзнетов и прочих фидо не подойдут?
источник

АГ

Александр Гранин in fprog_spb
Aλice
А вы занимались анализом авторства кода или текстов на естественном языке?)
Я делал диплом в универе, который распознавал авторство. Точнее - я сделал алгоритм, который как-то работал. Лучше, чем подбрасывание монетки, но детально я его не тестировал.

А в Лаборатории Касперского я занимался созданием DLP систем. Ну и тестированием их тоже.
источник