Size: a a a

AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

2020 August 19

r

r4khic in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Kid
считаете записи для каждого айди, having count(те неуникальные айди)>1
Не сочтите за наглость. Но можно пожалуйста по подробнее с примером?
источник

AI

Andrey Ivanov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
r4khic
Выходит другой вопрос. Как мне получить записи с дубликатами по указанному списку айди
есть 2 варианта. морочиться внутри sql, чтобы результат запроса был какой надо, или запросить уникальные записи и обработать их в языке как угодно
источник

K

Kid in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
r4khic
Не сочтите за наглость. Но можно пожалуйста по подробнее с примером?
select id, count(duplicate_id) from table group by id having count(duplicate_id)>1
источник

K

Kid in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
id - тот уникальный айдишник,
duplicate_id - то что дублируется
источник

K

Kid in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
по каждому уникальному, он посчитает количество айдишников которые возможно дублируется, а хэвингом выберет только те, которые как минимум диблируются 2 раза
источник

r

r4khic in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Если у меня будет скажем так 5к айдишников. Запрос не будет же долгим?
источник

K

Kid in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
r4khic
Если у меня будет скажем так 5к айдишников. Запрос не будет же долгим?
это вопрос ресурсов, если у тебя памяти достаточно, то в миллисекунду. + какая субд
источник

K

Kid in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
попробуй и проверь
источник

V

Vladimir in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
select correct_id
          , count(correct_id) as cnt_crt
from wheel_results
group by correct_id
having count(correct_id) > 1
источник

AN

Alpha Nerd in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Да можно через with clause и джойн
источник

r

r4khic in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ок комп сейчас не доступен как будет доступ к пк обязательно простестирую и отпишу
источник

K

Kid in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Alpha Nerd
Да можно через with clause и джойн
да так сложнее)
источник

КЧ

Кирилл Чертоганов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ребят, как делать EDA анализ если много признаков (сотни и больше)?
источник

MC

Maxim Cheparin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Кирилл Чертоганов
Ребят, как делать EDA анализ если много признаков (сотни и больше)?
ну, svd с регуляризацией, оно тебе упорядочит признаки по важности
источник

MC

Maxim Cheparin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
еще можешь построить модельки (линрег / логер / rf), посчитать важности признаков, и также отсеить - это проще, чем svd
источник

MC

Maxim Cheparin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
источник

MC

Maxim Cheparin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
еще из простого как baseline L1 регуляризацию заюзать: она занулит малозначимые признаки
источник

MC

Maxim Cheparin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
а вообще гуглани pca / svd, t-sne

p.s. но мой опыт примерно месяца 3, так что еще подождем старших опытных товарищей, а я б делал как-то так :)
источник

КЧ

Кирилл Чертоганов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Maxim Cheparin
ну, svd с регуляризацией, оно тебе упорядочит признаки по важности
Т. е. сначала уменьшить количество признаков , а потом делать EDA ? Так что ли ?
Я просто думал сначала eda делать, потом фичи отбирать, потом модель строить запускать ...
источник

MC

Maxim Cheparin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Кирилл Чертоганов
Т. е. сначала уменьшить количество признаков , а потом делать EDA ? Так что ли ?
Я просто думал сначала eda делать, потом фичи отбирать, потом модель строить запускать ...
я б сначала уменьшил кол-во признаков до обозримого в своей голове

наверное, старшие подскажут, может, какие-то штучки покруче, но энивей, имхо, этот подход выглядит разумным
источник