Телеграмм чат группы bigdata

У меня один вопрос по NLP назрел. У меня есть звонки клиентов и агентов (уже переведенные в текст). Я пытаюсь найти обещания, которые дал агент клиенту в каждом звонке.

источник

21:47пожаловаться #4

A

Alexander in AI / Big Data / Machine Learning

Я уже сделал восстановление пунктуации. Но есть много предложений, которые не имеют никакого смысла (просто набор не связанных слов). Хотелось бы удалить такие предложения. Интересно, какой подход лучше для этой задачи?

источник

21:47пожаловаться #5

A

Alexander in AI / Big Data / Machine Learning

Был бы рад услышать ваши идеи!

источник

21:48пожаловаться #6

A

Alexander in AI / Big Data / Machine Learning

Мои идеи:

источник

21:48пожаловаться #7

A

Alexander in AI / Big Data / Machine Learning

• tf idf и word2vec для создания векторов из всех предложений. После этого мы можем сделать что-то вроде anomaly detection, то есть искать и удалять векторы, которые сильно отклонены от большинства других векторов.

источник

21:48пожаловаться #8

A

Alexander in AI / Big Data / Machine Learning

• Спам-фильтры. Может быть, можно применить спам фильтры для этой задачи?

источник

21:48пожаловаться #9

A

Alexander in AI / Big Data / Machine Learning

• Ещё одна идя: cоздать образец речевых тегов, которые должно включать правильное предложение. Например, любое хорошее предложение должно включать существительное + глагол.

источник

21:49пожаловаться #10

A

Alexander in AI / Big Data / Machine Learning

Или мы можем использовать, например, токены зависимости из spacy.

источник

21:49пожаловаться #11

u

undiabler in AI / Big Data / Machine Learning

Андрей Шахов

Всем привет. А кто-нибудь работал в pandas с dataframe размера 100к строк на 30к столбцов? основная масса данных - bool, пару столбцов только string
Проблема в том, что даже для нулевого фрейма такого размера нужно 22 гб оперативки :)
Кто-нибудь решал такую проблему?

Не юзай пандас. Есть всякие обертки с таким же апи для работы с данными пачками с диска. Работать со всей матрицей в памяти это бомба отложенного действия. Сейчас ты потратишь кучу времени на оптимизацию чтоб влезло в память - завтра датасет будет чуть больше и снова не влезет.

источник

22:12пожаловаться #12

АШ

Андрей Шахов in AI / Big Data / Machine Learning

undiabler

Не юзай пандас. Есть всякие обертки с таким же апи для работы с данными пачками с диска. Работать со всей матрицей в памяти это бомба отложенного действия. Сейчас ты потратишь кучу времени на оптимизацию чтоб влезло в память - завтра датасет будет чуть больше и снова не влезет.

не, мне пока с этими данными надо работать, плюс-минус гиг в памяти норм )
главное уместить для проверки нескольких моделек, а дальше проще

источник

22:13пожаловаться #13

2020 January 10

R

Roman in AI / Big Data / Machine Learning

undiabler

Не юзай пандас. Есть всякие обертки с таким же апи для работы с данными пачками с диска. Работать со всей матрицей в памяти это бомба отложенного действия. Сейчас ты потратишь кучу времени на оптимизацию чтоб влезло в память - завтра датасет будет чуть больше и снова не влезет.

Пошли советчики. Пандас умеет читать чанками, так что все вполне можно уместить в память, причем с ростом датасета затраты памяти будут статичны.

источник

05:30пожаловаться #14

R

Roman in AI / Big Data / Machine Learning

Alexander

• tf idf и word2vec для создания векторов из всех предложений. После этого мы можем сделать что-то вроде anomaly detection, то есть искать и удалять векторы, которые сильно отклонены от большинства других векторов.

Поиск аномалий скажет тебе что необычно, но при этом туда может попасть чтото редкое но важное. Спам фильтры по сути тоже поиск аномалий. Можешь попробовать pyod моделей там много экспериментируй. Еще тебе надо сократить размерность причем значительно. Ну и главное нужно понять по смыслу что значит "обещание"

источник

05:34пожаловаться #15

R

Roman in AI / Big Data / Machine Learning

А разметки у тебя никакой нет для построения классификатора?

источник

05:49пожаловаться #16

NP

Nikolay Prokopev in AI / Big Data / Machine Learning

Подскажите, пожалуйста, предобученную модель для распознавания людей на фото (желательно с разделением по полу). Хотел Retinanet использовать, но imageai требует старую версию tensorflow (v1.7, у меня v2.1)

источник

07:14пожаловаться #17

AK

Alex Konst in AI / Big Data / Machine Learning

Nikolay Prokopev

Подскажите, пожалуйста, предобученную модель для распознавания людей на фото (желательно с разделением по полу). Хотел Retinanet использовать, но imageai требует старую версию tensorflow (v1.7, у меня v2.1)

Настрой виртуальную среду с нужной версией tf

источник

09:33пожаловаться #18

R

Roman in AI / Big Data / Machine Learning

Nikolay Prokopev

Подскажите, пожалуйста, предобученную модель для распознавания людей на фото (желательно с разделением по полу). Хотел Retinanet использовать, но imageai требует старую версию tensorflow (v1.7, у меня v2.1)

Mask rcnn или yolo тебя не устраивают для детекции ? У них есть предобученные модели но в твоем случае лучше дообучить сделав подвыборку датасета только по людям с указанием категорий мужчина женщина.

источник

10:03пожаловаться #19

MR

Mikhail R in AI / Big Data / Machine Learning

Вем привет! Может кто-нибудь тут знаком с методами вывода объяснений или правил нейронной сетью. Вопрос такой - существует ли открытая реализация алгоритма C-MLP2LN и если существует, то где?)

источник

11:33пожаловаться #20