Телеграмм чат группы fprog_spb страница 355

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

fprog_spb

286 membersпожаловаться на группу

2019 March 14

АГ

Александр Гранин in fprog_spb

Текстов на естественном языке

источник

17:44пожаловаться #1

A

Aλice in fprog_spb

Я текстов, но вчера в JB интересный семинар был про методы анализа кода. И мне показалось, это подходит только для профилирования обычных авторов кода. Но не хакеров, которые обфусцируют код, разбавляют контекст в стиле waf bypass

источник

17:45пожаловаться #2

АГ

Александр Гранин in fprog_spb

Мне неизвестно, что там было на семинаре, но в эпоху, когда существуют стайл-гайды, я не совсем понимаю, как можно анализировать код на авторство.

источник

17:46пожаловаться #3

АГ

Александр Гранин in fprog_spb

А обфускацию / стеганографию мы в нашей DLP системе намеренно не ловили, потому что там методов больше, чем у нас ресурсов их все закодить

источник

17:47пожаловаться #4

A

Aλice in fprog_spb

Александр Гранин

Текстов на естественном языке

Там проблема обычно с длиной сообщения. И с тем, что существующие методы для задачи closed-set. Например, если модель под капотом у DLP обучена на корпоративной переписке сотрудников компании, то в случае расследования киберинцидентов (утечки информации, вбросы) можно установить авторство только из ограниченного набора людей. А если уборщица за компьютер села и что-то написала, то просто все вероятности будут ниже трешолда. Классификацию авторов в постановке closed-set имеет смысл делать, наверное, только вместе с профилированием. Отдельная модель предиктит гендер и возраст. Может быть, еще какие-то фичи

источник

17:49пожаловаться #5

АГ

Александр Гранин in fprog_spb

Там проблема обычно с длиной сообщения. И с тем, что существующие методы для задачи closed-set. Например, если модель под капотом у DLP обучена на корпоративной переписке сотрудников компании, то в случае расследования киберинцидентов (утечки информации, вбросы) можно установить авторство только из ограниченного набора людей. А если уборщица за компьютер села и что-то написала, то просто все вероятности будут ниже трешолда. Классификацию авторов в постановке closed-set имеет смысл делать, наверное, только вместе с профилированием. Отдельная модель предиктит гендер и возраст. Может быть, еще какие-то фичи

А поясните, о каком тут авторстве идет речь. Автор утечки? Злоумышленник, то есть?

источник

17:50пожаловаться #6

A

Aλice in fprog_spb

Александр Гранин

А обфускацию / стеганографию мы в нашей DLP системе намеренно не ловили, потому что там методов больше, чем у нас ресурсов их все закодить

Есть несколько видов лингвистической стеганографии, я пока остановилась на текстовой (форматирование). Думаю попробовать заменить способ векторизации, попробовать устойчивые к шуму векторные представления слов. Заменить n_gramms + tf-idf на fasttext, RoVe, BEP tokenization

источник

17:50пожаловаться #7

АГ

Александр Гранин in fprog_spb

У нас была DLP, основанная на правилах. То есть, не то чтобы обученная (нейросети?), а скорее - настроенная.

источник

17:51пожаловаться #8

A

Aλice in fprog_spb

Александр Гранин

А поясните, о каком тут авторстве идет речь. Автор утечки? Злоумышленник, то есть?

Да. Я декомпозировала задачу на извлечение признаков авторов и классификацию профилей. Но можно и по-другому решать

источник

17:52пожаловаться #9

A

Aλice in fprog_spb

Александр Гранин

Мне неизвестно, что там было на семинаре, но в эпоху, когда существуют стайл-гайды, я не совсем понимаю, как можно анализировать код на авторство.

Честно говоря, я тоже не понимаю, какую проблему они решают. Мне пока кажется практически применимой только такая задача: обучать бинарный классификатор на репозитории кандидата и предиктить, он сам выполнил тестовое или кто-то за него писал😄

источник

17:53пожаловаться #10

АГ

Александр Гранин in fprog_spb

Есть несколько видов лингвистической стеганографии, я пока остановилась на текстовой (форматирование). Думаю попробовать заменить способ векторизации, попробовать устойчивые к шуму векторные представления слов. Заменить n_gramms + tf-idf на fasttext, RoVe, BEP tokenization

Да, я понимаю о чем речь. В моем дипломе тоже был анализ профилей, собранных по тексту. И там в основном был частотный анализ символов. До n-grams я в то время не дошел, но аналогичные проекты, работающие со всякими слогами (дифтонгами, точнее), показывали хорошие результаты.

Очень важно при этом делать нормализацию текста.

источник

17:54пожаловаться #11

АГ

Александр Гранин in fprog_spb

(Материалы диплома, кстати, в open source)

источник

17:54пожаловаться #12

A

Aλice in fprog_spb

Я посмотрю, интересно)

источник

17:55пожаловаться #13

АГ

Александр Гранин in fprog_spb

Честно говоря, я тоже не понимаю, какую проблему они решают. Мне пока кажется практически применимой только такая задача: обучать бинарный классификатор на репозитории кандидата и предиктить, он сам выполнил тестовое или кто-то за него писал😄

Задача понятная, а вот как решать - это вопрос. Данных же мало для создания профиля. И код - ну слишком похожий у разных авторов

источник

17:55пожаловаться #14

A

Aλice in fprog_spb

Мне вчера было интереснее про векторизацию кода послушать. Code2vec чувствителен к разбавлению контекста: если злоумышленник использует техники, вроде как в WAF bypass, или просто периодически заменяет некоторые символы кириллицей (Visual Studio это поддерживает), то эти токены не будут покрываться словарем модели. Для этих целей семантические фичи вообще не очень подходят, лучше анализировать бинарники. Или размечать вручную типы комманд и типы переходов между ними и строить анализ графа потока управления и графа потока данных. Или анализировать синтаксические и структурные фичи через AST, где ребра представляют структуру, которая скармливается random forest или LSTM.
Есть еще подход, основанный на энтропии сигнала фактора и взаимной информации, но я это не поняла, его просто упомянули в обзоре

источник

17:57пожаловаться #15

АГ

Александр Гранин in fprog_spb

Я посмотрю, интересно)

Ну, работа студенческого уровня, конечно, но как мне кажется, направление верное. Можно было бы развивать.
https://habr.com/ru/post/114187/

Текстовый анализатор: распознавание авторства (продолжение)

Эта статья об алгоритме распознавания авторства, реализованном в проекте «Текстовый анализатор». В продолжении статьи мы рассмотрим конечный автомат для разбиени...

источник

17:58пожаловаться #16

АГ

Александр Гранин in fprog_spb

Мне вчера было интереснее про векторизацию кода послушать. Code2vec чувствителен к разбавлению контекста: если злоумышленник использует техники, вроде как в WAF bypass, или просто периодически заменяет некоторые символы кириллицей (Visual Studio это поддерживает), то эти токены не будут покрываться словарем модели. Для этих целей семантические фичи вообще не очень подходят, лучше анализировать бинарники. Или размечать вручную типы комманд и типы переходов между ними и строить анализ графа потока управления и графа потока данных. Или анализировать синтаксические и структурные фичи через AST, где ребра представляют структуру, которая скармливается random forest или LSTM.
Есть еще подход, основанный на энтропии сигнала фактора и взаимной информации, но я это не поняла, его просто упомянули в обзоре

Забавно.
Не знаю, существует ли хоть один подобный инцидент в реальности.

источник

18:01пожаловаться #17

A

Aλice in fprog_spb

Меня векторизация кода интересует для смежной задачи. Есть бинарные классифкаторы урлов атака / не атака. По задаче мультиклассовой классификации (xss, sqli, phishing, spam, malicious) пока нет state-of-the-art решения. Только проприетарные реализации в некоторых WAF. Очень многие обходятся, и сейчас самое нормальное решение — размечать команды с помощью лексера, вроде libdetection
https://github.com/wallarm/libdetection
https://medium.com/@d0znpp/how-to-bypass-libinjection-in-many-waf-ngwaf-1e2513453c0f
Его можно подключить к питону как сишнуб либу через swig, а как векторизовать пока не очень понятно

wallarm/libdetection

Signature-free approach library to detect injection and commanding attacks - wallarm/libdetection

источник

18:07пожаловаться #18

АГ

Александр Гранин in fprog_spb

Меня векторизация кода интересует для смежной задачи. Есть бинарные классифкаторы урлов атака / не атака. По задаче мультиклассовой классификации (xss, sqli, phishing, spam, malicious) пока нет state-of-the-art решения. Только проприетарные реализации в некоторых WAF. Очень многие обходятся, и сейчас самое нормальное решение — размечать команды с помощью лексера, вроде libdetection
https://github.com/wallarm/libdetection
https://medium.com/@d0znpp/how-to-bypass-libinjection-in-many-waf-ngwaf-1e2513453c0f
Его можно подключить к питону как сишнуб либу через swig, а как векторизовать пока не очень понятно

wallarm/libdetection

Signature-free approach library to detect injection and commanding attacks - wallarm/libdetection

Ясно. Это уже для меня неизвестная область :)
Пишите, интересно будет узнать о результатах.

источник

18:09пожаловаться #19

e

expert in fprog_spb

Я готовлю доклад на конференцию по задаче идентификации авторства и методам обхода DLP систем. Мне нужно протестировать свое решение на анонимизированной корпоративной переписке с формальным стилем сообщений и связью авторов между собой. Сбербанк данные не дает, а задачи студентам ставит((
Твиты, на которых я уже сделала прототип, не очень подходят по методологической причине. Во-первых, разрозненные блоги не учитывают связь авторов между собой, вероятность наличия общих фраз, характерных для данной группы. Во-вторых, модель получится не робастная к «стилистической маске», однородному стилю всех авторов. Я могла бы использовать корпус сообщений политиков, украденный хакерами из Кремля, но не хочу проблем. Было бы отлично взять чью-то переписку на google groups, поскольку она и так публичная и 152-ФЗ, 272 УК там не будет. Но я все равно на всякий случай заменю все имена собственные, числа и др. чувствительные данные специальными токенами, а авторов переписки безликими номерами.
У google groups нет API для парсинга, поэтому спрашиваю сейчас у знакомых организаторов коммьюнити

Возможно это прозвучит странно, но мне сразу в голову пришли архивы ФИДО эх. Там конечно будет не официальный стиль письма, но зато данные будут разделены на тематические группы. Я погуглил и нашёл такое
https://wfido.ru/all/c

Авторы в ФИДО всегда уникально идентифицировались по адресу виду X:YYYY/ZZ.XX

источник

19:04пожаловаться #20