Size: a a a

AI / Big Data / Machine Learning

2020 January 09

V

Violet in AI / Big Data / Machine Learning
Если это интервал группировки, и группа=совокупность
источник

V

Violet in AI / Big Data / Machine Learning
Да и то с размахом будет совпадать не сам интервал, а его длина)
источник

P

Protectron in AI / Big Data / Machine Learning
Alexander, ваше сообщение содержит слова, перечисленные в чёрном списке.
источник

A

Alexander in AI / Big Data / Machine Learning
У меня один вопрос по NLP назрел. У меня есть звонки клиентов и агентов (уже переведенные в текст). Я пытаюсь найти обещания, которые дал агент клиенту в каждом звонке.
источник

A

Alexander in AI / Big Data / Machine Learning
Я уже сделал восстановление пунктуации. Но есть много предложений, которые не имеют никакого смысла (просто набор не связанных слов). Хотелось бы удалить такие предложения. Интересно, какой подход лучше для этой задачи?
источник

A

Alexander in AI / Big Data / Machine Learning
Был бы рад услышать ваши идеи!
источник

A

Alexander in AI / Big Data / Machine Learning
Мои идеи:
источник

A

Alexander in AI / Big Data / Machine Learning
• tf idf и word2vec для создания векторов из всех предложений. После этого мы можем сделать что-то вроде anomaly detection, то есть искать и удалять векторы, которые сильно отклонены от большинства других векторов.
источник

A

Alexander in AI / Big Data / Machine Learning
• Спам-фильтры. Может быть, можно применить спам фильтры для этой задачи?
источник

A

Alexander in AI / Big Data / Machine Learning
• Ещё одна идя: cоздать образец речевых тегов, которые должно включать правильное предложение. Например, любое хорошее предложение должно включать существительное + глагол.
источник

A

Alexander in AI / Big Data / Machine Learning
Или мы можем использовать, например, токены зависимости из spacy.
источник

u

undiabler in AI / Big Data / Machine Learning
Андрей Шахов
Всем привет. А кто-нибудь работал в pandas с dataframe размера 100к строк на 30к столбцов? основная масса данных - bool, пару столбцов только string
Проблема в том, что даже для нулевого фрейма такого размера нужно 22 гб оперативки :)
Кто-нибудь решал такую проблему?
Не юзай пандас. Есть всякие обертки с таким же апи для работы с данными пачками с диска. Работать со всей матрицей в памяти это бомба отложенного действия. Сейчас ты потратишь кучу времени на оптимизацию чтоб влезло в память - завтра датасет будет чуть больше и снова не влезет.
источник

АШ

Андрей Шахов in AI / Big Data / Machine Learning
undiabler
Не юзай пандас. Есть всякие обертки с таким же апи для работы с данными пачками с диска. Работать со всей матрицей в памяти это бомба отложенного действия. Сейчас ты потратишь кучу времени на оптимизацию чтоб влезло в память - завтра датасет будет чуть больше и снова не влезет.
не, мне пока с этими данными надо работать, плюс-минус гиг в памяти норм )
главное уместить для проверки нескольких моделек, а дальше проще
источник
2020 January 10

R

Roman in AI / Big Data / Machine Learning
undiabler
Не юзай пандас. Есть всякие обертки с таким же апи для работы с данными пачками с диска. Работать со всей матрицей в памяти это бомба отложенного действия. Сейчас ты потратишь кучу времени на оптимизацию чтоб влезло в память - завтра датасет будет чуть больше и снова не влезет.
Пошли советчики. Пандас умеет читать чанками, так что все вполне можно уместить в память,  причем с ростом датасета затраты памяти будут статичны.
источник

R

Roman in AI / Big Data / Machine Learning
Alexander
• tf idf и word2vec для создания векторов из всех предложений. После этого мы можем сделать что-то вроде anomaly detection, то есть искать и удалять векторы, которые сильно отклонены от большинства других векторов.
Поиск аномалий скажет тебе что необычно, но при этом туда может попасть чтото редкое но важное. Спам фильтры по сути тоже поиск аномалий. Можешь попробовать pyod моделей там много экспериментируй. Еще тебе надо сократить размерность причем значительно. Ну и главное нужно понять по смыслу что значит "обещание"
источник

R

Roman in AI / Big Data / Machine Learning
А разметки у тебя никакой нет для построения классификатора?
источник

NP

Nikolay Prokopev in AI / Big Data / Machine Learning
Подскажите, пожалуйста, предобученную модель для распознавания людей на фото (желательно с разделением по полу). Хотел Retinanet использовать, но imageai требует старую версию tensorflow (v1.7, у меня v2.1)
источник

AK

Alex Konst in AI / Big Data / Machine Learning
Nikolay Prokopev
Подскажите, пожалуйста, предобученную модель для распознавания людей на фото (желательно с разделением по полу). Хотел Retinanet использовать, но imageai требует старую версию tensorflow (v1.7, у меня v2.1)
Настрой виртуальную среду с нужной версией tf
источник

R

Roman in AI / Big Data / Machine Learning
Nikolay Prokopev
Подскажите, пожалуйста, предобученную модель для распознавания людей на фото (желательно с разделением по полу). Хотел Retinanet использовать, но imageai требует старую версию tensorflow (v1.7, у меня v2.1)
Mask rcnn или yolo тебя не устраивают для детекции ? У них есть предобученные модели но в твоем случае лучше дообучить сделав подвыборку датасета только по людям с указанием категорий мужчина женщина.
источник

MR

Mikhail R in AI / Big Data / Machine Learning
Вем привет! Может кто-нибудь тут знаком с методами вывода объяснений или правил нейронной сетью. Вопрос такой - существует ли открытая реализация алгоритма C-MLP2LN и если существует, то где?)
источник