Телеграмм чат группы mechmath страница 27955

@AlexanderTonkonogov Саша, привет!
Ты не знаешь, сколько человек побежит послезавтра от клуба ТЛ и какой у вас девиз?
Хочу с плакатиком прийти поддержать

источник

09:47пожаловаться #5

Ramzan Bekbulatov in Мехмат МГУ

novicer in Мехмат МГУ

вопрос по python: в чём разница между @ dispatch и @ multimethod?

источник

18:41пожаловаться #8

Pavel Savin in Мехмат МГУ

Первый ABDULLOH UZBAKI, второго нет в телеге

источник

18:44пожаловаться #9

novicer in Мехмат МГУ

я плох в иронии... dispatch и multimethod - это декораторы из python

источник

18:50пожаловаться #10

Ilya in Мехмат МГУ

novicer

вопрос по python: в чём разница между @ dispatch и @ multimethod?

спроси в https://t.me/ru_python_beginners

а то тут овощи сидят

Python beginners

Вопросы про Python для чайников.
Cпам и троллинг неприемлем.
Не злоупотребляйте стикерами.

Правила группы:
https://t.me/ru_python_beginners/526969

Частозадаваемые вопросы:
https://github.com/ru-python-beginners/faq/blob/master/README.md

источник

19:24пожаловаться #11

Aleksei Shestov in Мехмат МГУ

Кст, прорекламируютут свой кан альчик, пишу там про всякие интересные штуки из ботки на которые натыкаюсь

источник

21:26пожаловаться #12

Aleksei Shestov in Мехмат МГУ

Алгоритмы ml (машинного обучения) иногда любят обосновывать из тех соображений, что они находят оценку максимума правдоподобия (ОМП) для своего вектора параметров, а, значит, обладают "хорошими свойствами" ОМП, как то ассимптотическая эффективность в широком классе M-оценок, при определенных услрвиях - эффективность, еще при определенных условиях - достижение границы Крамера-Рао и т.п. В частности, иногда через ОМП обосновывают нейронные сети с функцией потерь в виде кросс-энтропии, логистическую регрессию, иногда - линейную регрессию и svm, и т.п.
Но, если приглядеться, то можно заметить одно существенное отличие классической ОМП от того "ОМП", что применяется в ml алгоритмах. Приготовились? Наберите воздуха побольше (с)
В классической постановке ОМП у нас есть семейство распределений P_t, есть данные {x1,.. xi,.. xn} , сгенерированные при t=t0, т.е. распределением P_t0, и мы хотим найти это t0 из данных. Для этого мы данные подставляем в произведение плотностей, и находим t, максимизирующее произведение: t_mle = argmax_t П_i {P_t(xi)}.
Теперь, внимание. Среди множества t, по которому мы ищем максимум, есть и то значение t0, при котором была сгенерирована выборка.
А теперь посмотрим на алгоритмы ml. Каждый алгоритм задает семейство распределений Pa_l, где l - параметры алгоритма. НО! Если наш алгоритм не нейронная сеть со 100500 слоями, то среди семейства распределений Pa_l не будет того распредения P_t0, которым были сгенерированы данные {x1,.. xi,.. xn}, потому что алгоритмом мы можем лишь апроксимировать исходное распределение P_t0 с каким то уровнем точности.
Таким образом, задачи обучения ml алгоритма и оттыскания ОМП различаются в существенной детали - множестве распределений, среди которых ищется оптимум. И таким образом, для большинства ml алгоритмов параметры обученного алгоритма будут НЕ ОМП, несмотря на то, что так пишут во многих книгах и статьях. В частности, оценка, получаемая ml алгоритмами, будет даже не состоятельной, в том смысле, что при увеличении количества данных распределеие обученного алгоритма Pa_l0 НЕ БУДЕТ сходиться к исходному распределению P_t0.
А что за оценка получается в этом случае, и какие у нее свойства, я расскажу в следующем посте 😀

источник

21:27пожаловаться #13

Aleksei Shestov in Мехмат МГУ

Итак, мы выяснили, что оценка ОМП в классическом смысле и то "ОМП", которое находят ml алгоритмы, это разные вещи. Что за оценку находят ml алгоритмы?
Когда мы максимизируем правдоподобие на обучающей выборке (как в классическом случае, так и в случае ml алгоритмов), мы находим распределение, минимизирующее дивергенцию Кульбака-Лейблера (KL дивергенцию) https://ru.m.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D1%81%D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D0%B5_%D0%9A%D1%83%D0%BB%D1%8C%D0%B1%D0%B0%D0%BA%D0%B0_%E2%80%94_%D0%9B%D0%B5%D0%B9%D0%B1%D0%BB%D0%B5%D1%80%D0%B0 до эмпирического распределения, построенного по сэмплам {x1,..., xn}. Из этого логично было бы ожидать, что при большом числе сэмплов наша оценка будет сходиться к распределению P_inf, минимизирующему KL дивергенцию до настоящего распределения P_t0. В случае классической ОМП это распределение будет совпадать с распределением P_t0. В случае с ml алгоритмами мы ожидаем, что распределение P_inf будет тем распределением из семейства распределений Pa_l (которые может сгенерировать наш ml алгоритм), которое наиболее близко к P_t0 в смысле KL дивергенции.
И действительно, это выполняется, но при определенных условиях регулярности на семейство Pa_l, подробнее описано в этой https://www.jstor.org/stable/1912526?seq=1 статье. То есть, при определенных условиях регулярности, алгоритм ml находит статистическую оценку l_mle параметров l0, которые наилучшим образом (в смысле KL расстояния) приближают исходное распределение P_t0.
Более того, для этой оценки выполняются многие "хорошие" свойства ОМП, только по отношению к распределению P_l0 (а не P_t0), подробнее, например, в вышеприведенной статье или, более кратко, в http://homepage.ntu.edu.tw/~ckuan/pdf/et01/ch9.pdf , или, еще более кратко, в https://web.stanford.edu/class/archive/stats/stats200/stats200.1172/Lecture16.pdf .
То есть, резюмируя - если семейство распределений Pa_l, которое может выдавать ml алгоритм, достаточно богатое, чтобы хорошо аппроксимировать исходное распределение данных P_t0, то использование ОМП для нахождения параметров алгоритма действительно обосновано, т.к. мы можем получить "хорошую" статистическую оценку.

Wikipedia

Расстояние Кульбака — Лейблера

Расстояние (расхождение, дивергенция) Ку́льбака — Ле́йблера (англ. Kullback–Leibler divergence), РКЛ, информационное расхождение, различающая информация, информационный выигрыш, относительная энтропия (англ. relative entropy) — неотрицательнозначный функционал, являющийся несимметричной мерой удалённости друг от друга двух вероятностных распределений , определённых на общем пространстве элементарных событий. Часто применяется в теории информации и математической статистике.

источник

21:27пожаловаться #14

N in Мехмат МГУ