Телеграмм чат группы datasciencecourse страница 3573

Зачем. Прямо берешь и каждое слово в тексте добавляешь в словарь. Надо только придумать какое значение добавлять, чтобы оно относилось к нужному предложению

источник

18:23пожаловаться #10

Aroh in Machine learning

со степенями двойки как-нибудь поиграть, например

источник

18:24пожаловаться #11

АГ

Артём Глазунов... in Machine learning

Надо бы тоже за неё сесть снова...

источник

18:27пожаловаться #12

Iurii in Machine learning

Доброго времени суток, друзья! Проверьте пожалуйста C1W4:
https://www.coursera.org/learn/mathematics-and-python/peer/4vN1n/tsientral-naia-priediel-naia-tieoriema-svoimi-rukami/review/r8HDebF2EeqySRLX8vjPvw

Coursera

Coursera | Online Courses & Credentials From Top Educators. Join for Free | Coursera

Learn online and earn valuable credentials from top universities like Yale, Michigan, Stanford, and leading companies like Google and IBM. Join Coursera for free and transform your career with degrees, certificates, Specializations, & MOOCs in data science, computer science, business, and dozens of other topics.

источник

18:29пожаловаться #13

apex in Machine learning

Я в древние школярские времена учился мат. моделированию на Фортране и i386. Была похожая задача решить систему заданную матрицей 1000х1000. По-моему на том железе она вообще не решалась. Но матрица была с огромным количеством нулей, она как-то приводилась к десятку-двум диагоналей и решалась каким-то известным алгоритмом, который я не помню. Возможно с кошачьей задачей надо действовать также, из 254 в каждом предложении 10-15 элементов !=0

источник

18:32пожаловаться #14

apex in Machine learning

короче надо гуглить что-то типа разреженных матриц и итерационных методов решения ИМХО

источник

18:45пожаловаться #15

Aroh in Machine learning

Почитал задачу. Там же практически описан алгоритм решения с сходимостью ниже, чем N*M. Сначала каждому слову дать индекс - тут будет столько действий, сколько слов в тексте. Потом создать матрицу. Если индекс есть, то это еще один проход по всему множеству слов, только уже зная индекс просто добавляете позицию в правильном месте матрицы.

источник

18:46пожаловаться #16

Aroh in Machine learning

матрица заполненная нулями заданной размерности создается с околонулевой скоростью )

источник

18:47пожаловаться #17

apex in Machine learning

19:17пожаловаться #18

apex in Machine learning

по-моему задача ускорить алгоритм который внутри scipy, тот который перемножает вектора длиной n m раз. Наверняка в scipy реализованы какие-то более быстрые алгоритмы, но я только на 1-м курсе, еще scipy не изучил

источник

19:18пожаловаться #19

АГ

Артём Глазунов... in Machine learning

apex

короче надо гуглить что-то типа разреженных матриц и итерационных методов решения ИМХО

Задача преобразования текстов в частоты всегда сводится к разреженным матрицам, все это уже работает в обычном count vectorizer... В задаче 6 курса векторизация проводится с помощью scipy.sparse.csr_matrix, но там тоже использовался словарь для индексов и слов...В любом случае O(m+n) это k*(m+n) +C операций... Так, размышления на тему...

источник

19:58пожаловаться #20