Size: a a a

AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

2020 August 28

CK

Caezar Ku in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Проксимов Прксимович
А в чем проблема? Обрабатываешь как обрабатывал, выводишь - как хочешь
в плане сразу через файл?
источник

ПП

Проксимов Прксимович... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Caezar Ku
в плане сразу через файл?
Не вижу проблемы
источник

CK

Caezar Ku in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Проксимов Прксимович
Не вижу проблемы
А как было бы правильно сделать?
источник

ПП

Проксимов Прксимович... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Caezar Ku
А как было бы правильно сделать?
Зависит от задач
источник

K

Kamoliddin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Caezar Ku
Как работать с датасэтом в Джанго и как вообще подключить к нему МЛ? Данные нужно закидывать в БД? А потом во вьюхе с ним МЛом заниматься?
Можно импортировать все модули и просто работать как с обычным скриптом
источник

K

Kamoliddin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Productionize a Machine Learning Model with a Django API | by Chris I. | Towards Data Science
https://towardsdatascience.com/productionize-a-machine-learning-model-with-a-django-api-c774cb47698c
источник

K

Kamoliddin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
А ещё лучше использовать flask
источник

CK

Caezar Ku in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
вывел названия колонок, но почему-то обработанные данные не выводятся. В консоли через принт все воркает, что не так?
источник

ПП

Проксимов Прксимович... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Caezar Ku
вывел названия колонок, но почему-то обработанные данные не выводятся. В консоли через принт все воркает, что не так?
Наверное вывод не так
источник

ПП

Проксимов Прксимович... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Обратись в чат по джанго
источник

CK

Caezar Ku in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Проксимов Прксимович
Обратись в чат по джанго
понял, спасибо)
источник

T

Timur in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Kamoliddin
А ещё лучше использовать flask
или fastapi
источник

D•

Dan • Captain in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
IVAN MALAKHOV
Two ≠ double. Хороший исполнитель должен это знать :)
источник

IM

IVAN MALAKHOV in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Dan • Captain
Two ≠ double. Хороший исполнитель должен это знать :)
Это уже как повезет с исполнителем )
источник
2020 August 29

GZ

German Zvonchuk in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Доброй ночи Друзья,

это опять я со своей проблемой :=)

у меня есть в БД много объявлений по продаже и аренде квартир, которые собираются с других сайтов.

Пользователи иногда не корректно публикуют объявления, чаще всего пропускают одну цифру или наоборот добавляют лишний НОЛЬ в цене.

К примеру, вместо 124кв, в объявлении по ошибке написано 1240кв.
или вместо 100 000 USD по ошибке пишут 1 000 000 USD.

Мне нужен механизм, при помощи которого я смогу выявлять, такие объявления.

Сейчас я вытащил из БД объявления на продажу из одного города, всего 51 282 объявления.

Далее я взял 99 перцентиль для price_per_square и вытащил из БД 516 объявления.

https://docs.google.com/spreadsheets/d/1Xjpi-9lZgMmsDCMlDXvB-G2mPROUmlGUxr8k43YTFK4/edit?usp=sharing

- 285 некорректные.
- 65 корректные.
- 166 еще не проверил.

Друзья, пожалуйста подскажите мне методу, при помощи которой можно будет выявлять объявления с неправильной площадью или ценой.

Буду признателен вам за любую информацию.
источник

DD

David Dale in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
German Zvonchuk
Доброй ночи Друзья,

это опять я со своей проблемой :=)

у меня есть в БД много объявлений по продаже и аренде квартир, которые собираются с других сайтов.

Пользователи иногда не корректно публикуют объявления, чаще всего пропускают одну цифру или наоборот добавляют лишний НОЛЬ в цене.

К примеру, вместо 124кв, в объявлении по ошибке написано 1240кв.
или вместо 100 000 USD по ошибке пишут 1 000 000 USD.

Мне нужен механизм, при помощи которого я смогу выявлять, такие объявления.

Сейчас я вытащил из БД объявления на продажу из одного города, всего 51 282 объявления.

Далее я взял 99 перцентиль для price_per_square и вытащил из БД 516 объявления.

https://docs.google.com/spreadsheets/d/1Xjpi-9lZgMmsDCMlDXvB-G2mPROUmlGUxr8k43YTFK4/edit?usp=sharing

- 285 некорректные.
- 65 корректные.
- 166 еще не проверил.

Друзья, пожалуйста подскажите мне методу, при помощи которой можно будет выявлять объявления с неправильной площадью или ценой.

Буду признателен вам за любую информацию.
Я бы построил какую-нибудь простенькую модельку, предсказывающую price_per_square (например, дерево или деревянный ансамбль), и если прогноз отличается от факта в примерно 10 раз (в любую сторону) или в какую-то степень десятки, то это похоже на лишнюю или пропущенную цифру в цене либо метраже.

Чтобы моделька нормально обучалась на шумных данных, можно сделать квантильную регрессию, т.е. предсказывать не среднее арифметическое, а медиану (в sklearn'овских деревьях это достигается аргументом criterion="mae").
источник

MT

Michael Tkach in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
German Zvonchuk
Доброй ночи Друзья,

это опять я со своей проблемой :=)

у меня есть в БД много объявлений по продаже и аренде квартир, которые собираются с других сайтов.

Пользователи иногда не корректно публикуют объявления, чаще всего пропускают одну цифру или наоборот добавляют лишний НОЛЬ в цене.

К примеру, вместо 124кв, в объявлении по ошибке написано 1240кв.
или вместо 100 000 USD по ошибке пишут 1 000 000 USD.

Мне нужен механизм, при помощи которого я смогу выявлять, такие объявления.

Сейчас я вытащил из БД объявления на продажу из одного города, всего 51 282 объявления.

Далее я взял 99 перцентиль для price_per_square и вытащил из БД 516 объявления.

https://docs.google.com/spreadsheets/d/1Xjpi-9lZgMmsDCMlDXvB-G2mPROUmlGUxr8k43YTFK4/edit?usp=sharing

- 285 некорректные.
- 65 корректные.
- 166 еще не проверил.

Друзья, пожалуйста подскажите мне методу, при помощи которой можно будет выявлять объявления с неправильной площадью или ценой.

Буду признателен вам за любую информацию.
Это называется Anomaly Detection или более детально Outlier Detection. Я бы гуглил в эту сторону. sklearn содержит несколько алгоритмов для решения этой проблемы (например, IsolationForest).
источник

T

Timur in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Привет! Слухайте, у меня опять при высчитывании кост функции nan вылетает. Самое интересное, что так только с 1 датасетом(его я брал на кагле, так что не думаю, что проблема в нем).
источник

T

Timur in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Есть у кого-нибудь идеи?
источник

EZ

Evgenii Zheltonozhsk... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Timur
Привет! Слухайте, у меня опять при высчитывании кост функции nan вылетает. Самое интересное, что так только с 1 датасетом(его я брал на кагле, так что не думаю, что проблема в нем).
В торче есть детектор нанов
источник