Телеграмм чат группы datasciencecourse страница 3464

Text Mining in Python: Steps and Examples

This blog summarizes text preprocessing and covers the NLTK steps including Tokenization, Stemming, Lemmatization, POS tagging, Named entity recognition and Chunking.

https://www.kdnuggets.com/2020/05/text-mining-python-steps-examples.html

источник

22:04пожаловаться #5

2020 June 05

АГ

Артём Глазунов... in Machine learning

Gurgen Melikyan

в C2W3?

Судя по всему, вы передаёте массив длиной 1, при этом подразумевается индекс 6000. Проверьте вручную передаваемые данные, их размерность

источник

00:19пожаловаться #6

АК

Александр Кошелев... in Machine learning

C6W3 Отток, проверьте работу пожалуйста
https://www.coursera.org/learn/data-analysis-project/peer/am9Gl/postroieniie-baseline-rieshienii/review/oAOHzKbHEeqVyApnk24R4w

Coursera

Coursera | Online Courses & Credentials From Top Educators. Join for Free | Coursera

Learn online and earn valuable credentials from top universities like Yale, Michigan, Stanford, and leading companies like Google and IBM. Join Coursera for free and transform your career with degrees, certificates, Specializations, & MOOCs in data science, computer science, business, and dozens of other topics.

источник

04:01пожаловаться #7

АГ

Артём Глазунов... in Machine learning

Илья

c6w1
ребят, весь день пытаюсь оптимизировать код, но пока дело не идет, кто-то может дать совет, что нужно делать?

А может разделить построение словаря и Запись сессий? Построить словарь, отсортировать его, а потом уже снова по пользователям пройтись, записывая id из словаря в предварительно подготовленные нп зирос для сессий, затем их в df преобразовать..

источник

09:01пожаловаться #8

АГ

Артём Глазунов... in Machine learning

Илья

c6w1
ребят, весь день пытаюсь оптимизировать код, но пока дело не идет, кто-то может дать совет, что нужно делать?

Все же, думаю, сортировка облегчит затем сверку, при этом нампай обработать может оказаться несколько быстрее множества обращений к df сделать... А так алгоритм по сложности примерно такой же получается, просто операции побыстрее могут получиться, в скорости может быть прибавка.

источник

09:09пожаловаться #9

АГ

Артём Глазунов... in Machine learning

Илья

c6w1
ребят, весь день пытаюсь оптимизировать код, но пока дело не идет, кто-то может дать совет, что нужно делать?

Ещё у меня есть сомнение, что ваш код обрабатывает неполные сессии, поскольку если длина запрашиваемого среза больше того, что осталось, то может выдаваться пустой массив для таких сессий..

источник

09:34пожаловаться #10

RY

Ruslan515 Y in Machine learning

Переслано от Ruslan515 Y

Кострикин. Задача 26.1. д) почему такой ответ? у меня получилось x^4+x^3+x^2+x+1. остаток 1

источник

10:13пожаловаться #11

RY

Ruslan515 Y in Machine learning

Переслано от Ruslan515 Y

источник

10:13пожаловаться #12

AR

Anton Rogozin in Machine learning

На собеседовании задали вопрос: "Данные стоят денег. Как ты будешь оценивать количество данных, которые можно обработать за такое количество денег?" Ответил, что зависит от модели, данных и задачи. К примеру, нейронкам надо много данных для обработки изображений, а для бинарной классификации векторов хватит небольшого количества данных и SVM. Если данные плохие (много null и пропусков), то качество не добьёшься.
Как бы вы на это ответили на этот вопрос?

источник

10:23пожаловаться #13

АК

Артур Ким in Machine learning

Anton Rogozin

На собеседовании задали вопрос: "Данные стоят денег. Как ты будешь оценивать количество данных, которые можно обработать за такое количество денег?" Ответил, что зависит от модели, данных и задачи. К примеру, нейронкам надо много данных для обработки изображений, а для бинарной классификации векторов хватит небольшого количества данных и SVM. Если данные плохие (много null и пропусков), то качество не добьёшься.
Как бы вы на это ответили на этот вопрос?

Я бы примерно так же и ответил. Возможно, я бы добавил, что в ряде случаев (нормальное распределение и определенный доверительный интервал) можно примерно определить размер выборки, чтобы она была репрезентативной. Зная, сколько стоит условно одна запись, можно сказать, будет ли достаточно выделенного бюджета для формирования нужной выборки.

источник

10:30пожаловаться #14

P

Pavel in Machine learning

Ruslan515 Y

Переслано от Ruslan515 Y

Кострикин. Задача 26.1. д) почему такой ответ? у меня получилось x^4+x^3+x^2+x+1. остаток 1

в ответе просто представлена форма, из которой очень просто сделать новую функцию, аргументом которой и будет х-х0, а так ответы правильные. Непонятно только, зачем так сделано, проще просто разделить

источник

10:31пожаловаться #15

АК

Артур Ким in Machine learning

Anton Rogozin

На собеседовании задали вопрос: "Данные стоят денег. Как ты будешь оценивать количество данных, которые можно обработать за такое количество денег?" Ответил, что зависит от модели, данных и задачи. К примеру, нейронкам надо много данных для обработки изображений, а для бинарной классификации векторов хватит небольшого количества данных и SVM. Если данные плохие (много null и пропусков), то качество не добьёшься.
Как бы вы на это ответили на этот вопрос?

Также возникает вопрос о том, как эти изображения были собраны, есть ли разрешение на их использование. Мне кажется, что в ряде случаев можно значительно снизить стоимость исходных данных, если предоставить бесплатный сервис, который выдает какой-то побочный продукт обработки этих данных на условиях предоставления разрешения на их использование. Типа сделать сервис, который накладывает фильтр на фото, которое присылает пользователь, и в условиях пользования прописать, что эти изображения могут быть использованы для разработки внутренних продуктов.

Тогда можно посчитать, сколько будет стоить разработка и продвижение такого приложения, и если это будет дешевле, чем закупать эти данные, то лучше поднять такой сервис,

источник

10:34пожаловаться #16

AR

Anton Rogozin in Machine learning

Это был общий вопрос. По изображения я просто привёл пример. Можно пойти дальше: добавить изображениям шум, отзеркалить, слегка перевернуть и т.п.

источник

10:35пожаловаться #17

АК

Артур Ким in Machine learning

Anton Rogozin

На собеседовании задали вопрос: "Данные стоят денег. Как ты будешь оценивать количество данных, которые можно обработать за такое количество денег?" Ответил, что зависит от модели, данных и задачи. К примеру, нейронкам надо много данных для обработки изображений, а для бинарной классификации векторов хватит небольшого количества данных и SVM. Если данные плохие (много null и пропусков), то качество не добьёшься.
Как бы вы на это ответили на этот вопрос?

Еще данные требуют денег на хранение, а это периодический постоянный (или постоянно растущий) расход. Нужно учитывать, может ли компания данные хранить и обрабатывать.

источник

10:36пожаловаться #18

АК

Артур Ким in Machine learning

Anton Rogozin

Это был общий вопрос. По изображения я просто привёл пример. Можно пойти дальше: добавить изображениям шум, отзеркалить, слегка перевернуть и т.п.

Я понимаю. Просто не имея данных о самой компании и интервьюере приходится из пальца высасывать и придумывать на ходу)

источник

10:36пожаловаться #19

АК

Артур Ким in Machine learning

Anton Rogozin

Это был общий вопрос. По изображения я просто привёл пример. Можно пойти дальше: добавить изображениям шум, отзеркалить, слегка перевернуть и т.п.

А Вы уже закончили специализацию?

источник

10:37пожаловаться #20