Size: a a a

мамкин Data Scientist

2019 November 13
мамкин Data Scientist
​​Йоу, бестфитинги

В конце будет крутая штука, пригодится как нубам, так и матёрым волчарам, читаем до конца.

Попросили меня тут прокомментировать курс по features engineering на каггле. Для тех кто не в курсе, там про то, как обрабатывать категориальные переменные, генерить новые фичи и отбирать имеющиеся. Звучит пиздато, да, но курс прежде всего рассчитан на людей, которые совсем незнакомы с features engineering. Именно поэтому подходы, которые там рассматриваются сильно тривиальные и практически любой уважающий себя паблик кернел табличного соревнования уже содержит все эти трюки. Так что, если ты совсем не знаком с FE изучить конечно можно, но такой же результат будет, если сразу сядешь на бутылку и просто начнешь свой путь с публичного кернела. К курсу претензий нет, наоборот, спасибо авторам, что посвящают зеленых в такую тему и делают это так мягко.

Курс → https://www.kaggle.com/learn/feature-engineering

Но нас интересует немного другое, даже самый tupoy уже понял, что features engineering зачастую становится ключом к хорошим результатам соревнований и просто задач классического МЛ. Так какой features engineering, способен реально давать преимущества в соревнованиях? Начнем с того, что мы уже рассматривали несколько подходов, которые работают и проверены временем, их можно найти в закрепе.
А сегодня в программе библиотека, служащая для автоматической генерации фичей. Featuretools — генерация фичей для самых сука ленивых жоп, ну проще уже некуда. Функционал широкий, но разобраться совсем изи, поэтому читаем документацию и используем на здоровье

Либа → https://docs.featuretools.com/en/stable/

Работаем, братва
источник
2019 November 28
мамкин Data Scientist
​​Здорова, банда

Мы с вами уже год состоим в серьёзных отношениях, а у нас до сих пор не было sexa (Воронцова). Потому что рекомендовать Воронцова до свадьбы было бы подло с моей стороны, но сейчас вы стали совсем взрослыми и разумными мамкиными DSами и не будете сувать свой python в каждую дырку.

Лекции Воронцова по классик МЛ являются однозначно самыми полными и глубокими в русскоязычном сегменте, одновременно с тем становятся причиной суицида новичков, которые решили начать свой путь с них. Я, однозначно, не рекомендую начинать с Воронцова, только если вы не закончили мехмат или что-то подобное. Лекции ориентированы на ШАД, а там с мат подготовкой все хорошо, в отличии от тебя.

Их ценность в другом. Предположим, ты прошел или начал проходить какие-то курсы про МЛ и уже немного шаришь: знаешь как называются алгоритмы, умеешь запускать их из коробки, знаешь чем они отличаются, ну короче гений уже пиздец. Теперь пора узнать как же все это работает под капотом. Причины интересоваться этим совсем уж очевидны. Первая — тебя точно спросят это на собесе, без глубоких знаний, можешь рассчитывать только на работу за еду. Вторая — дальше без этого никак, чтобы стать полноценным специалистом, надо понимать как все работает, поверь мне. Третья — любая самка будет твоя, если бухой в баре расскажешь ей про принцип работы градиентного бустинга (нет). Поэтому, после получения базы, смотреть Воронцова практически мастхев, от этого никуда не деться.

Лекции  → https://cutt.ly/qe18LtT

Работаем, ресечеры
источник
2019 December 09
мамкин Data Scientist
​​Салют, сучата

Один крутой чувак сказал: «Книга не сделает из человека умного и не добавит скила, если ничего не делать руками», и он чертовски прав.

Курсы/книги — это конечно хорошо, но если думаешь, что МЛ можно познать через теорию, то ты ошибаешься, дружок-пирожок. Я постоянно призываю участвовать в соревнованиях, залетать в open source проекты и тому подобное, причем чем быстрее это осознаешь, тем быстрее получишь эффект. Сам удивишься, насколько быстрее буст даже от первого соревнования, относительно домашних заданий любого курса. И не пизди, что ждешь особенного момента, типа сначала изучу пятое, десятое, а потом буду участвовать. Это так не работает. Соревнования/проекты есть на любой уровень.
Совсем еще зеленый? Залетай на Титаник.
Уже что-то умеешь? Попробуй в House Prices или в NFL уже со взрослыми дядями.
Хочешь попробовать в DL? Врывайся в MNIST.
Все в твоих руках, начни прямо сейчас. Просто открой соревнование и посмотри, что от тебя хотят. Не надо ныть, надо просто ебашить. Да и на собеседовании куда приятней обсуждать успехи в соревнованиях, чем зубодробительную теорию, забытую сто лет назад. Ну а если ты уж совсем запутался на своем пути, пиши @BoykoAA, будем разбираться вместе.

Кстати, хочу устроить новогоднюю викторину с блэкджеком, подарками и шлюхами. Скоро будут подробности.

Остаемся на связя, братва
источник
2019 December 20
мамкин Data Scientist
​​Здорова, аутлаеры

Внизу будут подробности про новогодний конкурс для умных, кто не участвует — БАН.

А сейчас пополнение джентльменского набора. Сколько уже времени призываю сделать питоновский файлик со своими личными функциями для ускорения разработки? А? Но нет, ты до сих пор пинаешь болт.
Короче, нашел либу, в которой реализованы некоторые типичные функции, позвольте представить Feature-engine. Из приятного, библиотека позволяет заполнять пропуски, например, значениями из хвостов распределения или группировать редкие категориальные признаки в одну группу, или выполнять логарифмические трансформации над числовыми фичами и многое другое в таком стиле. Все-то, что у тебя давным-давно должно было быть. Кстати, исходный код открыт, так что можешь скрысить куски кода себе. Штука хорошая, изучаем

Либа → https://feature-engine.readthedocs.io/en/latest/index.html

Тем временем, 2020 подбирается все ближе и ближе, а с момента, когда ты выигрывал фишки у одноклассников, прошло 20 лет (олды здесь?). Теперь будем играть в игры для взрослых, если вы понимаете о чем я, а именно — интеллектуальная новогодняя викторина.
Через 5 дней, 25 декабря в 18 часов вечера выложу задания, и мамкины ДСы будут мериться pythhon-ами с пацанами в бане.
Викторина будет выглядеть следующим образом. Перечень из 5-7 вопросов взятых с ебучайшего сервиса interview-mds.ru и одна задачка на теор. вер. Первые 3 всадника апокалипсиса, кто решит все верно, получат призы.

3 место. Книга Николенко «Глубокое обучение»
2 место. Книга Николенко «Глубокое обучение»
1 место (Он и так сука умный, ему книга не нужна). 1500 на карту с барского плеча
(Книгу можно поменять на другую)

Какую задачку хотите на теор. вер.? Про мат. ожидание или на теорему Байеса?

Голосуем, братва
источник
2019 December 25
мамкин Data Scientist
​​Хо хо хо, работяги

Не будем терять времени, а перейдем сразу к делу. Новогодняя викторина.
Ссылка будет доступна до 18 часов вечера, после чего будут выбраны первые 3 человека, кто решит 4 из 4. Если таких не будет, то выберу первых 3х, кто решит 3 из 4, ну и так далее. Не медлите.
Победители будут объявлены сегодня после 18 часов, а также прикреплю файл с решением, я его уже затехал епт.

Викторина → https://docs.google.com/forms/d/e/1FAIpQLScVx5ygLeEUP8DP56tL2uqU9sfkKx0_DZf117uVPSsHe6B6cA/viewform

Дублирую список призов:
3 место. Книга Николенко «Глубокое обучение»
2 место. Книга Николенко «Глубокое обучение»
1 место. 1500 на карту
(Книгу можно поменять на другую)

Работаем, братва
источник
мамкин Data Scientist
​​Йоу, банда

Спасибо всем, кто поучаствовал, вы реально крутые перцы. Снизу будут ответы на задачки с небольшим подъебом, так что не скипай пост.

Пора огласить 3х всадников апокалипсиса. Первое место. Самой быстрой рукой на диком западе оказался @DmitryEgorovGeol, даже не знаю, где он ее так натренировал. Второе место @yanezh96, третье место @dkovalen. Молодцы парни, поздравляю!
Хочется поблагодарить каждого Мамкиного ДСа, потому что этот конкурс состоялся не без вашей помощи, ведь это именно вы собираете самую большую базу вопросов с собеседований на interview-mds.ru, а если ты еще не поделился вопросами, то вперёд и велком в ряды людей с положительной кармой.

А вот и решение викторины, если нравится такой формат разбора задачек на теор.вер, жми пивас, будем практиковать. На собесах любят спросить хуйню про монетку.

Решение → https://yadi.sk/i/K2ZclkLdv4cfZw

С наступащим, братва, люблю вас
источник
2020 January 14
мамкин Data Scientist
​​Здорова, бандиты

Смотрю от теор. вера у тебя не слабо подгорает. Окей, давай капнем эту тему по-нормальному, потому что я чекнул один из первых постов про это, тема сисек до конца не раскрыта, согласен.

Сначала будет план для нубов, потом для перельманов.

Первым делом закономерный вопрос. Нужен ли теор.вер для МЛ? Конечно блять, за такие вопросы можно вообще в бан улететь, чтоб больше такое не спрашивал. Машинное обучение — это и есть теория вероятностей, только в модной обертке. Если челик добрался до фит/предикт без понимания этого, то это уже мировой рекорд, но дальше никак, так что ботай.

Начать постижение этой науки можно с прекрасного курса от физтеха «Основы теории вероятностей». В главной роли Райгор (самый лучший лектор ever).
Плюсы: просто, очень доходчиво, смотрится на одном дыхании.
Минусы: к курсу вопросов нет, но нам понадобятся знания глубже, чем основы

Лекции можно посмотреть бесплатно в лекториуме.
Лекции → https://lectoriy.mipt.ru/course/Maths-ProbabilityTheoryBasics-L15

А вот полноценный курс находится на курсере, но стоит копейки.
Курс → https://www.coursera.org/learn/probability-theory-basics

Только давайте не забывать, ручной труд сделал из обезьяны человека, это не значит, что надо запираться в туалете и усердно учить python. Это значит, что лекций и задачек в курсе недостаточно, надо довести все типичные моменты до автоматизма. Берем нормальный задачник и решаем все подряд. Могу посоветовать тут два варианта.

Либо методичка с мат. профи, где разобраны все типичные задачи, и автор нацелен просто надрочить вас до полусмерти, стоит в районе 1-2 кофе.
Методичка → http://mathprofi.com/knigi_i_kursy/

Либо другой сборник задач по теор. веру, который рекомендовал тот же Райгор, в своей книжке по теории случайных графов.
Сборник задач → Зубков А.М. «Сборник задач по теории вероятностей» https://yadi.sk/i/XztolEbvm25fOQ

Вот и добрались до умных, что можно вам порекомендовать. Книги «Вероятность-1» и «Вероятность-2», автор: Ширяев.
Знаете, кто был у Ширяева в свое время научный руководитель? КОЛМОГОРОВ. Охуеть можно, это уже совсем другой уровень.
Ширяев пишет не для новичков, но очень хорошо и детально, каждую тему разбирает формально и по косточкам. К этим двум книгам докидываем его же задачник, который так и называется Ширяев «Задачи по теории вероятностей» и пытаемся не умереть.

Работаем, братва
источник
2020 January 28
мамкин Data Scientist
​​Буэнос диас, мучачос

Смотрю с матаном я тоже охуенно так схалтурил в первом посте. Давайте строить план более конкретно.

Хочется сразу оговориться, что в целом, матан нам понадобится в меньшей степени, чем теор. вер, поэтому если ты выбираешь, как грамотно распределить время, то 90:10 в сторону вероятности, статов и линала по отношению к матану.

Можно пойти сложным, но эффективным путём и посмотреть курс в двух частях, который практически в точности копирует первый и второй семестр хорошего технического вуза.
Речь идёт о курсах «Мат. Анализ Теория функций одной переменной», ну и двух ебать, как ты догадался. Продукт под лейблом МГУ, да и лектор топчик.
Сам по себе курс бесплатный, но если захочешь получить сертификат, то придётся писать экзамен с проктором и заплатить пару монет.
Бал сатаны начинается 19 февраля, поэтому пора записываться.

Первая часть → https://openedu.ru/course/msu/CALCSV/
Вторая часть → https://openedu.ru/course/msu/MATHAN/

Что касается задачника, тут тоже есть топ — Демидович, вот берём его и решаем нужные темы
Задачник → http://pm-pu.ru/stuff/analiz/books/demidovich_sbornik.pdf

Если нужны основы по решению задач, то идём на матпрофи и надрачиваем, пока python не отвалится, там такая методика.
Матпрофи → http://mathprofi.com/knigi_i_kursy/

Если удобней литература и нет времени на такой долгий разгон, то берём Зорича в двух частях. По сути это те же самые темы, что и в курсе, только в печатном виде
Книжки → Математический анализ. В 2-х ч.  Зорич В.А.

Работаем, братва, в этом деле главное начать
источник
2020 February 10
мамкин Data Scientist
​​Здорова, бандюганы

Базар сегодня зайдет за NLP.  Если ты совсем зеленый залетаешь в МЛ сферу с прицелом на NLP, то самая большая ошибка, которую можно совершить, так это начать сразу с него. На каких-нибудь RNN сольешься как сучка, твой tupoy мозг еще не готов.
Подготовиться к такому челенджу нужно точно так же, как к CV, RL и тд. Перед тем как залетать в любую ветку DL, я рекомендую изучить классик МЛ. А там где классик МЛ, там и нужные разделы математики, там и питон. Так что соберись, тебя ждет охуительное приключение.

Ну а что с NLP, сучара?

Тут как всегда, несколько вариантов самоизнасилования. Будем оценивать курсы по соотношению тобi пiзда/качество от 0 до 10.

Самый оптимальный по нашей метрике вариант — это второй семестр в Deep Learning school от физтеха. Хоть вторая часть курса не всецело посвящена NLP, его там хватает с головой. На курсе можно получить хорошую базу, не сильно напрягаясь, а потом пойти решать прикладные задачи на Kaggle, самое то. Записаться на этот бал сатаны нужно до 29 февраля. 9 из 10.
Курс, программа → https://www.dlschool.org/pro-track

Если ты заядлый мазохист, то можно попробовать NLP курс от ШАДа. Но тут надо быть осторожным, такой продукт кидает на клык за константу, если ты неупакованный по полной программе Перельман. Всего 6 недель, а как вставляет. Но опять же, подходит далеко не всем. Для простолюдинов 7 из 10, для умных 10 из 10.
Курс → https://github.com/yandexdataschool/nlp_course

Можно еще посмотреть курс от физтеховской лабы DeepPavlov, но я его не проходил и ничего не слышал про этот продукт, советовать не буду. Если кто-то располагает инфой и хочет поделиться фитбеком в массы, велком @BoykoAA. Знаю, что за основу там взят крутейший стенфорский курс, а значит хуево по определению сделать сложно. Кстати, лекции Стэнфорда можно посмотреть на ютубе
Лекции → https://www.youtube.com/playlist?list=PLoROMvodv4rOhcuXMZkNm7j3fVwBBY42z

Если начал, то не тормози на середине. Работаем, братва
источник
2020 February 25
мамкин Data Scientist
​​Здорова, бродяги

Не секрет, что на собесах в более менее большие компании дрочат по алгоритмам. Я уже поднимал эту тему и рассказывал о некоторых способах их заботать. Но вот какая проблема обнаружилась, чуваки, которые прыгают с места в карьер и бегут сразу на литкод не знают основ алгоритмов и структур данных. Это приводит к грустному ebalu на собесе после вопроса про мерджсорт.

Вот как мы поступим, есть ресурс, который позиционирует себя как дистанционная подготовка для школьников, но нам похуям, мы люди не гордые, там есть все задачи на классические алгоритмы с теорией, тестами и тд, все как полагается.

Заходим, находим раздел «Алгоритмы и структуры данных» и идем по порядку, начиная с «поиск и сортировка» и так далее.
Это сформирует в голове отличный фундамент для дальнейшего решения более узких задач, а уже после этого можно идти на литкод и готовиться писать код на листочке карандашом.

Ресурс → https://informatics.mccme.ru/

Работаем, братва
источник
2020 March 11
мамкин Data Scientist
​​Вечер в хату, ученные

Однажды ты спросишь, что я люблю больше Data science или статистику. Я отвечу: твою мамашу. Ты уйдешь так и не узнав, что Data science это и есть блять статистика, tupaya ты бошка.

В каком-то смысле задача мат. статистики обратна задаче теор. вера. В теор. вере вероятность в каждой конкретной ситуации считается полностью определённой. Основной задачей является разработка методов нахождения вероятностей различных сложных событий. А в мат. статистике рассматривается статистическая модель, которая описывает такие ситуации, когда в вероятностной модели изучаемого эксперимента имеется неопределенность в задании вероятности. Задача мат. статистики состоит в том, чтоб уменьшить эту неопределённость, выявить структуру статистической модели по результатам проводимых наблюдений. Ничего не напоминает? Доброе утро, сучара, это Машин Лернинг.

Как можно заботать мат. стат на достаточном уровне я уже рассказывал, даже два раза. Но вот, что интересно, как эту науку учат элитные гребцы — физкеки.

Как минимум, в нашем распоряжении 2 курса лекций Физтеха:

Первый. «Математическая статистика», состоящий из 15 лекций, к которому удалось найти даже домашки.

Лекции → https://www.youtube.com/playlist?list=PL4_hYwCyhAvZZr17tiRCP7ItwRmRnU4QS
Домашки → http://ru.discrete-mathematics.org/fall2018/3/matstat_pmf/problems.pdf

Второй, «Статистические методы в биоинформатике», оч клевый курс, рекомендую посмотреть. Там всего 7 лекций, много времени не займет.

Лекции → https://www.youtube.com/playlist?list=PL4_hYwCyhAvbBOQIoB7fAkhtyNS_O4eJU

А еще у меня есть несколько практических ноутбуков, которые можно сделать как упражнение, они тоже принадлежат одному из курсов мат стата от физтеха. Можно миксануть их с любым из курсов. Так что развлекайтесь.

Практические домашки → https://yadi.sk/d/PlJyYmuGxKU6vA

Но учтите, просто так в статы не залететь, для начала нужно pizdato освоить теор вер, а потом уже погружаться в эту пучину.

Всем фит-предикт, братва
источник
2020 March 26
мамкин Data Scientist
​​Здорова, карантин

Пока все сидим дома пердим, есть время кое-что обдумать. Например, выбрать оптимальные стратегии обучения, рассмотреть новые карьерные возможности (хотя ты уже их проебал) или оглянуться назад.

Сегодня мы обсудим такой шаг в дополнительном образовании как ШАД. Что это и надо ли, обсуждали уже сто раз, даже было интервью с рептилоидами, которые смогли туда поступить.
В этом деле главное осознанность, нужно понимать, что ШАД — это история не на 5 минут, а очень длительная подготовка и хардовая учеба. Для начала расставь приоритеты и подумай, надо оно тебе или нет. Если ты все-таки имеешь беды с башкой и ответ положительный, то едем дальше.

Сам я не учился в этой красной БДСМ комнатке, но опросил пару рептилий, которые подсказали, как можно готовиться.

Ну прям очевидный момент, используем литературу и темы, которые советует сам ШАД, это располагается вот тут.

Литература → https://yandexdataschool.ru/admission/adm-program

Следующий очевидный момент, но в приятной упаковке. Все прошедшие экзамены за последние 8 лет в одном месте. Понятно, что их надо выдрочить вдоль и поперек.

Экзамены → https://efiminem.github.io/supershad/

Олимпиады ВШЭ для студентов и выпускников, тоже сложная штука, можно на ней хорошо тренироваться. Выбираешь год, материалы для подготовки и пошел.

Олимпиады → https://olymp.hse.ru/ma/arh
Так же можно поступить с олимпиадами Я — профессионал.

Теперь, что касается мотивации, если ты думаешь, что это хуйня-вопрос, то заблуждаешься. Есть сотни историй, когда на этом моменте челики сыпались с очень неплохими результатами экзаменов. Что же нужно говорить? Может быть какие-то определенные фразы, при которых экзаменатор думает: о да, сукин сын, ты в деле. Нет, такого не существует. Надо понять, что там дибилов нет, все экзаменаторы точно так же читают всякие статейки и видят как людей учат говорить одинаковыми шаблонами. На самом деле, рабочая стратегия такая: не молчи, перестань быть додиком хотя бы на время разговора и эмоционально расскажи все, что у тебя на душе. Экзаменатор оценит твою честность и открытость, поверь. Никто не любит, когда его пытаются наебать, вот и не пытайся.

А еще, вы можете собираться в команды, чтоб ботать было не скучно. Таких же додиков можно поискать либо в ОДСе, либо написать мне @BoykoAA, попробую вас сметчить.

Работаем, братва, а я пока готовлю прррросто атомную бомбу для вас, ждите
источник
2020 April 10
мамкин Data Scientist
​​Здорова, ученые в говне моченые

Как и обещал, подготовил вам подгон на карантин не хуже порнохабовского. Помните наш с вами совместный проект Interview_mds? Это сервис, где каждый мамкин DS может поделиться вопросами, которые пускали его по кругу во время очередного собеседования. Если мы будем сознательно подходить к этому делу, то удивленное ebalo на интервью станет редким событием.

Так вот, на днях мы с пацанами посидели в позе голландского штурвала и добавили жизни в проект, а именно ответили почти на 70 вопросов. Лучшего времени подготовиться к новым собесам вряд ли когда-то представится. Поэтому собирай свою дряблую жопу в кулак и вперед ботать.

Вопросы, на которые подготовили ответы, я собрал в отдельном файле с линками, их можно найти здесь.

Вопросы + ответы → https://docs.google.com/document/d/1eeP6R36Ur7aTFica7uBkx8FlaQKSE8dHamdnoAJCVUM/edit?usp=sharing

Не благодари, бро, лучше сделай вот что, перейди по ссылке ниже и скажи, что ты вообще думаешь о Interview-mds. Что нравится, что не нравится, что поменять, что добавить и не ленись блять, пожалуйста.

Предложения → https://docs.google.com/forms/d/e/1FAIpQLScp7b9sImC7oL5GooONM68LRZC5BGiCjyOzmXS-aCiZQIzKbg/viewform?usp=sf_link

Работаем дома, братва
источник
2020 April 29
мамкин Data Scientist
​​Здорова, пацаны

Короче тема такая, каждое второе сообщение у меня в личке, это что-то вроде: «хорош ли курс %name%». Это отличный вопрос, обязательно напишите мне или кому-то типа меня перед тем как покупать курс за хуево-тутуево кэша.
Но вот в чем дело, я никогда не посоветую курс, который сам хотя бы не смотрел, а они плодятся со скоростью света. В таких ситуациях, советую взять что-то проверенное. Потому что база у МЛ одна, ничего сверхъестественного там не расскажут.
Конечно иногда на меня накатывает волна филантропии, тогда я даю шанс непроверенным продуктам (как ты в ашане) и покупаю их. Но пока что меня ждал сплошной пиздец.
Тем более, у нас уже выделено 3 программы по классик МЛ, которые с головой покрывают базовый объем информации, как теоретической, так и практической, за них могу ручаться: спецуха, одс, институт биоинформатики + одс.

А сегодня к этой тройке добавляется, прямо-таки неебовый конкурент. Свежий курс от физтеха. Причем в двух вариациях: базовый уровень и продвинутый. Базовый уровень — это ровно тот курс лекций и домашек, который прослушивают студенты физтеха на третьем курсе, а продвинутый на четвертом.

Пару слов. Это абсолютно самостоятельный продукт, его не нужно дополнять какой-то дополнительной домашкой или лекциями, если конечно бекграунд соответствует. Просмотрев базовую версию и выполнив 80% домашек, а также докинув сюда 1-2 соревнования на Kaggle, ты будешь готов ебать мозги всей Москве и мозолить глаза hr-ам разных компаний.

Быстро по структуре. Сюрпризов не будет, все по классике. 13 недель. Линейные модели, деревья, бустинги, хуюстинги, немного нейронок.

Что касается продвинутого курса, оно того стоит, пацаны, смотрим. Некоторые ноутбуки даже просто прощелкать будет полезно. Короче мастхев. Просто глянь список лекций, возможно прослушать 1-2 будет самый сок для тебя, а не проходить весь курс.

По нашей стандартной метрике тобi пiзда / качество —  9/10 для базового, из-за достаточно высокого порога входа. И 10/10 для продвинутого, тут люди к боли привыкшие.

Курсы → https://github.com/ml-mipt/ml-mipt

Ботаем, братва
источник
2020 May 20
мамкин Data Scientist
​​Здорова, бандиты

Ситуация: на собеседовании интервьюер вскользь задевает командную строку, интересуясь о твоих познаниях и опыту работы с этим инструментом. Конечно же с ехидной улыбкой отвечаешь, что все в порядке, а сам на деле ты ебанько подай патроны и никогда в жизни что-то круче чем $mkdir bigtits не делал. Исправляем ситуацию.

Вообще командной строке посвящают какое-то время на нормальных CS специальностях в универе, но какую шарагу ты закончил мы знаем, поэтому надо взять что-то со стороны.
MIT любезно поделились своим курсом и домашками, которые полностью покроют потребности в командой строке при трудоустройстве. Да и стыдно знать МЛ, но не уметь пользоваться шеллом.
Тут 11 лекций и столько же домашек. Это не рокет сайнс, пацаны, поэтому все можно схавать за неделю не напрягаясь.

Shell MIT → https://missing.csail.mit.edu/

Второе, про что хочется сказать это SQL. Еще ничего так легко не понижало стоимость мамкиного DSа на рынке как эта сучка. Но тут больше разговоров, просто берем и задрачиваем. Уже сделали кучу тренажеров, которые требует только твоего времени. И если до сих пор не знаешь SQL, то посвяти блять вечера тренажерам, а не новым сезонам очередной параши.
Вот что рекомендую. Можно взять бесплатный тренажер на степике: 4 блока, 20 часов на изучение, стильно, модно, молодежно.

Тренажер степик → https://stepik.org/course/63054/promo

А можно взять sqlzoo, общепризнанного фаворита. Попробуй оба варианта, какой ближе ляжет тот и проходи. В любом случае результат будет хороший

sqlzoo → https://sqlzoo.net/

Выполнив эти 2 простых пункта ты повысишь свою стоимость, увеличишь покрытие вакансий, а главное сделаешь наконец, то что давно хотел.

Работаем, братва
источник
2020 June 10
мамкин Data Scientist
​​Бонджорно, сучары

Количество мамкиных ДСов на рынке работорговли растет по экспоненте, поэтому растут и требования к ним. Иногда встречаю вакансии джунов и диву даюсь. Думаю, ебать че навыдумывали. Это конечно не значит, что надо на все забить. Это значит, что надо быть гибким и уметь подстраиваться под изменяющейся рынок. Тем более, что там больше слов, чем дела.

Короче тема такая, допустим ты обучил модельку в джупитер ноутбуке, и она даже отличает кошу от собаки лучше твоего бухого соседа. Что делать дальше? Дальше нужно деплоить. А вот как это делать и есть новый тренд у работодателей. Да и вообще, способность завести свою модельку где-то кроме джупитера, сделать ей веб-морду и тд, крайне полезный скил для самого себя.

Научиться этому есть два способа. Путь мамкиного ДСа и нормальный.
К первому относится схема «решаем проблему по мере ее поступления». На ютубе есть отличный не то чтобы по вкусу курс, но по сути курс. Представляет собой скорей практическое руководство, которое может по шагам показать как делается деплой. Не надо бежать смотреть это с отрывом от реальной задачи, один хрен у тебя память как у рыбы, забудешь все послезавтра. Когда появится такая задача, тогда и посмотришь. Как говорится, в резюме пишем, ссылку запоминаем.

Руководство → https://www.youtube.com/playlist?list=PLQJ7ptkRY-xYLEAC5Y_sKqrJ9RA-U7Dja

Если ты больной на голову, то есть и фундаментальный вариант. Это целый курс на Udemy. Конечно, он эффективней, но надо понимать, что это целая история, и затянется она не на 2 вечера. Оверкильный вариант, но есть такие додики, которым нужен везде основательный подход, поэтому решать тебе

Курс → https://www.udemy.com/course/learn-devops-the-complete-kubernetes-course/

Идем до конца. Работаем, братва
источник
2020 July 06
мамкин Data Scientist
​​Давай по новой, Миша. Всё хуйня!

Короче, бандиты, я полностью пересмотрел смысл и содержание закреплённого поста. Теперь там собраны основные пайплайны обучения, некоторые советы, а также обновлена навигация по каналу. У нас с вами тут уже целая эко мать ее система на минималках. Будь внимателен, закреп большой, поэтому он в двух частях, друг под другом.

Важно вот что понять. Курсов много, хочется все посмотреть, но буст, который ты получаешь от практики aka Галеры, гораздо сильнее, чем от любого курса. Старайся получить хорошую базу, которая описывается в пайплайнах, а затем сразу садиться за весла. На практике люди залетают на работу даже без знания DL, а потом уже доучивают его в процессе. В этом деле главное не ссать и пробовать свои силы при каждой возможности.

Смотрим закреп, если есть новые идеи, смело пишем @BoykoAA

Закреп → https://t.me/mommyscience/14

Работаем, братва
источник
2020 July 28
мамкин Data Scientist
​​Здорова, бандиты

Если бы мне платили 1$ за каждый вопрос: «А можно изучать математику не по разным источникам, а найти один, где бы была Математика для МЛ», то я бы нихуя не заработал, но было бы приятно. Ответ очень простой, да, такие есть. Слышал у физтеха есть такой курс, у степика что-то там разрабатывается и еще пару контор. Но давайте проясним пару вещей. Ты, конечно, tupoy и не понимаешь этого, но математика для МЛ ничем не отличается от Математики для экзамена на втором курсе (вот это поворот). Все темы известны, никаких секретов, информация в свободном доступе уже миллион лет.

Смоделируем две ситуации.
Первая, ты смотришь курс математика для МЛ до того, как изучил МЛ/ДС. Ну тогда какая нахрен разница, что собственные векторы используются в PCA, если ты не понимаешь что такое PCA, а если даже понимаешь, то не понимаешь сути как это работает в МЛ и зачем. С таким же успехом можешь просто прогнать все эти темы, без уклона на МЛ/ДС и никакой разницы не почувствуешь.
Вторая ситуация, ты смотришь подобный курс после того, как изучил МЛ и просто хочешь понять более детально как это все работает. Ну тогда зачем использовать подобный продукт, если ты уже и так понимаешь какие темы там под капотом, посмотри сразу их.

Хоть смысла, кроме как мотивационного пинка, в подобном продукте я не вижу, давайте сделаем вот как, есть один неплохой бесплатный курс математика для МЛ на английском. Там 26 видео в среднем по часу, как раз можно понять, каким темам нужно уделить особое внимание, выстроить программу именно под себя и охуительно заботать. Либо просто следовать пайплайнам из закрепа. Тяжело? Легко никто не обещал, 300кк/сек просто так не платят.

Курс → https://www.youtube.com/playlist?list=PL7y-1rk2cCsAqRtWoZ95z-GMcecVG5mzA

Работаем, братва
источник
2020 August 24
мамкин Data Scientist
​​Здорова, пацаны

Сегодня будет тема для ученных в говне моченых (работяги вышли из чата). Короче, если в вакансии на которую ты подаешься есть слова типа scientist, или, если с противоположным полом совсем плохо, то можно увидеть даже researcher. Тут исход один. Рано или поздно тебя попросят либо реализовать научную статью целиком, либо какую-то часть, либо же вообще улучшить результат. Чтобы при такой просьбе тебя не перекосоебило, надо понимать следующие вещи.

Первое. Хоть сначала кажется, что некоторые статьи написаны чужими для хищников, это не так. Тут дело практики, как и в любом деле, если читать по 5-10 статей в неделю, то будешь расчехлять их за O(1).

Второе. Если не понимаешь статью от слова совсем, скорей всего проблема в статье. Ты, конечно, tupoy, но иногда поиск хорошей статьи по теме превращается в настоящий челендж. Так что если не понимаешь, забиваешь, идешь дальше.

Третье. Исследовательские статьи не только для PhD MIT. Ты можешь точно так же читать статьи и абсолютно не бояться этого. Там есть определённый формальный язык, но когда к нему привыкаешь, то читаешь как ленту новостей.

Лан, хорош пиздеть, теперь по ресурсам. Определенного алгоритма у меня нет. Но можно почитать, что говорят другие люди
https://www.sciencemag.org/careers/2016/03/how-seriously-read-scientific-paper

Начать поиск статей лучше всего здесь, думаю и так знаешь.
Google scholar → https://scholar.google.com/
Также не забывай искать на гитхабе по названию статьи, иногда можно найти хороший код.

А вот, что порекомендовал бы к просмотру, так это как 4хГрандмастер каггла (это не шарагу закончить), реализует классический U-Net. Из этого видео понятно, что если статья хорошая, то она и реализуется просто. Что написано, то и кодим. Обязательно к просмотру.
Implementing original U-Net → https://www.youtube.com/watch?v=u1loyDCoGbE&t=1s

Работаем, братва
источник
2020 September 22
мамкин Data Scientist
​​Здорова, бандиты

Стал замечать рост вакансий связанных с временными рядами, особенно радует интерес корпораций к стажерам на это направление. Тайм сириасы одно из немногих направлений, где МЛ не притянут за huy, перфоманс там реально есть.

Вот только у нубов есть одна критическая ошибка, они пытаются заботать SOTA результаты в области, не сформировав твердую базу. Пусть то временные ряды или другая подобласть МЛ.

Братан, когда приходишь на стажера/джуна, выглядит как минимум стремно слушать про Diffusion Convolutional Recurrent Neural Network и при этом видеть удивленное ebalo при просьбе рассказать идею heapsort.

На какое бы направление МЛ ты не шел, нужно знать следующие вещи:
1. База по алгоритмам
2. База по теор.веру/статам
3. База по классическому МЛ
4. База по направлению. База блять, понял?

Базу по Тайм сириасам можно получить на семидневном мини-курсе. Он покрывает все основные моменты, которые могут спросить джуна/стажера.

Курс → https://machinelearningmastery.com/time-series-forecasting-python-mini-course/

Либо, можно совместить приятное с полезным и выполняя третий пункт из списка, взять спецуху от Яндекса/МФТИ, где на пятом курсе рассказывают основы анализа временных рядов, этого будет достаточно для старта. Можно также посмотреть отдельно эту часть специализации.

Курс → https://www.coursera.org/learn/data-analysis-applications

Первые три пункта можно подобрать под себя в первой и второй частях закрепа. Тут главное понять, что основной упор интервьюера будет направлен именно на них. Ну и, конечно, сверху все нужно шлифануть вопросами с сервиса, который мы сделали общими усилиями мамкиных ДСов.

Вопросы с собесов → https://interview-mds.ru/

А если тайм сириас для тебя рабочая рутина, то следующий продукт порадует. Четыре недели временных рядов на TensorFlow от deeplearning.ai. Тут и DNN, и RNN, все как мы любим. Ведущий — дядька из Google Brain, не предложит выбор из двух стульев, а посадит на каждый из них по очереди. Короче 10 из 10.

Курс → https://www.coursera.org/professional-certificates/tensorflow-in-practice

Работаем, братва
источник