Size: a a a

AI / Big Data / Machine Learning

2020 January 22

F

Fargo in AI / Big Data / Machine Learning
Спасибо большое, устал уже циклами перебирать =)
источник

СГ

Сергей Голод in AI / Big Data / Machine Learning
Roman
Есть новостные агрегаторы которые собирают инфу для верификации новости через них. По сути есть доверенные новостные агенства которым доверяют. Остальные по умолчанию подозрительные.
отсутствие новости в новостном агрегаторе не делает её фейковой
источник

MS

Mikhail Sednev in AI / Big Data / Machine Learning
Andrey
я к чему спрашивал про ETL в контексте ML..

почти каждая вакансия здесь предполагает написание кастомных пайплайнов для того, чтобы адаптировать данные к процессам компании. и процессы могут быть повязаны как на открытые решения, так на внутренние продукты компаний.. и в свете этого меня не покидает мысль о том, что эту проблему (написания кода там, где он может быть не нужен) можно решить! весь процесс поставки любых данных для аналитики может быть описан декларативно. т.е. иными словами, любые данные можно привести к каким угодно форматам, минимизируя код вплоть до нуля.

т.е. вместо кодирования пайплайнов можно их составлять через определенный интерфейс в браузере.

например, тут упомянут был не так давно pandas с поддержкой CSV.GZ. и у каждого тула есть свои интерфейсы. и к ним можно приводить данные без кода.

скажите, вам это было бы интересно?

беглый поиск по чату показывал, что интерес был..
Тык достаточно много таких утилит. для Google это data fusion и data prep
источник

MS

Mikhail Sednev in AI / Big Data / Machine Learning
Можно вроде ещё pipeline описывать в sql
источник

A

Andrey in AI / Big Data / Machine Learning
о, спасибо, очень хорошо
источник
2020 January 23

🖤

🖤 in AI / Big Data / Machine Learning
Сейчас проходит чемпионат мира по шахматам среди женщин, наш аналитик из ДВФУ выкачал данные с личеса, там несколько терабайт и на flourish визуализировал эти данные. Топ дебютов за 7 лет. Миллиард игр. Как вам?
https://youtu.be/VcghDhMlgBw
источник

D🐈

Dan 🐈 Capybara in AI / Big Data / Machine Learning
Идет набор в новую группу профессионального онлайн-курса «Data Engineer». Если слова Hadoop, MapReduce, Spark (и не только!) для вас не пустой звук – это ваш курс.

Изучайте программу и минимальные требования к поступающим, проходите вступительное тестирование и присоединяйтесь с welcome-скидкой: https://otus.pw/9ei8/

Что даст вам этот курс:
- знание ключевых способов хранения и методов обработки больших объемов данных, а также стоимости их внедрения;
- умение работать с распределенными система в контексте Hadoop экосистемы;
- практические навыки разработки приложений с использованием программной модели MapReduce ;
- опыт использования распределенной файловой системы (HDFS).

Делиться с вами своей экспертизой будут преподаватели и наставники курса, среди которых Егор Матешук (Senior Data Engineer) и Артемий Козырь (Data Engineer).

Приходите учиться на боевых задачах у настоящих профессионалов.
источник

D🐈

Dan 🐈 Capybara in AI / Big Data / Machine Learning
OTUS открывает набор на обновлённый курс «Machine learning» для аналитиков и разработчиков. Пройдите тест (необходимо знание Python и математики) и займите своё место со специальной скидкой: https://otus.pw/7nt0/

— Хотите протестировать учебный процесс заранее? Регистрируйтесь на бесплатный пробный вебинар «Как я взял золото на Kaggle. Разбор задач» - 6 февраля в 20:00 мск: https://otus.pw/vzuj/

На бесплатном вебинаре Валерий Бабушкин, преподаватель курса  и Competitions Grandmaster на Kaggle, top 30 разберёт несколько задач с соревнований, на которых он взял золото, и поделится секретами побед.

Будут разобраны задачи:
- IEEE kaggle camera identification;
- carvana masking challenge.

А также вы сможете задать любые вопросы по Machine learning и выяснить всё, что хотели узнать, но боялись спросить!
источник

КБ

Константин Белов in AI / Big Data / Machine Learning
Ребята, я знаю, что если фичи не сбалансированы это плохо, а если и таргеты не сбалансированы , то тоже плохо ?
источник

A

Alexei in AI / Big Data / Machine Learning
Константин Белов
Ребята, я знаю, что если фичи не сбалансированы это плохо, а если и таргеты не сбалансированы , то тоже плохо ?
В смысле классы несбалансированы?
источник

КБ

Константин Белов in AI / Big Data / Machine Learning
Классы да, мои таргеты
источник

КБ

Константин Белов in AI / Big Data / Machine Learning
То что я хочу спрогнозировать
источник

КБ

Константин Белов in AI / Big Data / Machine Learning
Там 0 или 1 значение класса
источник

КБ

Константин Белов in AI / Big Data / Machine Learning
Таргета
источник

КБ

Константин Белов in AI / Big Data / Machine Learning
И очень много 1
источник

КБ

Константин Белов in AI / Big Data / Machine Learning
Единичек
источник

КБ

Константин Белов in AI / Big Data / Machine Learning
И на accuracy 0,98
источник

КБ

Константин Белов in AI / Big Data / Machine Learning
Но так же нельзя, верно?
источник

A

Alexei in AI / Big Data / Machine Learning
@Denken17 Несбалансированы классы, нужно другие метрики использовать, может f1?
источник

R

Roma in AI / Big Data / Machine Learning
Константин Белов
Но так же нельзя, верно?
Можно, но от модели толку нет

Смени метрику с accuracy на roc_auc, при дисбалансе можно использовать downsampling, или же, задавать веса для классов, т.е. у тебя для 1 будет вес 1, а для 0-111
источник