Size: a a a

Мехмат МГУ

2020 July 30

RB

Ramzan Bekbulatov in Мехмат МГУ
MSU Hub Bot
😏 Дабл у Irakliy Glunchadze: 55
забрал сиськастую
источник

RB

Ramzan Bekbulatov in Мехмат МГУ
Aleksei Shestov
Я больше не буду
ну смотри
источник

AS

Aleksei Shestov in Мехмат МГУ
Ramzan Bekbulatov
ну смотри
Куда
источник

AS

Aleksei Shestov in Мехмат МГУ
Aleksei Shestov
Куртка не застнгнута была
источник
2020 July 31

E

Ekaterina in Мехмат МГУ
@AlexanderTonkonogov Саша, привет!
Ты не знаешь, сколько человек побежит послезавтра от клуба ТЛ и какой у вас девиз?
Хочу с плакатиком прийти поддержать
источник

RB

Ramzan Bekbulatov in Мехмат МГУ
источник

A

Artur in Мехмат МГУ
источник

n

novicer in Мехмат МГУ
вопрос по python: в чём разница между @ dispatch и @ multimethod?
источник

PS

Pavel Savin in Мехмат МГУ
Первый ABDULLOH UZBAKI, второго нет в телеге
источник

n

novicer in Мехмат МГУ
я плох в иронии... dispatch и multimethod - это декораторы из python
источник

I

Ilya in Мехмат МГУ
novicer
вопрос по python: в чём разница между @ dispatch и @ multimethod?
спроси в https://t.me/ru_python_beginners

а то тут овощи сидят
источник

AS

Aleksei Shestov in Мехмат МГУ
Кст, прорекламируютут свой кан альчик, пишу там про всякие интересные штуки из ботки на которые натыкаюсь
источник

AS

Aleksei Shestov in Мехмат МГУ
Алгоритмы ml (машинного обучения) иногда любят обосновывать из тех соображений, что они находят оценку максимума правдоподобия (ОМП) для своего вектора параметров, а, значит, обладают "хорошими свойствами" ОМП, как то ассимптотическая эффективность в широком классе M-оценок, при определенных услрвиях - эффективность, еще при определенных условиях - достижение границы Крамера-Рао и т.п. В частности, иногда через ОМП обосновывают нейронные сети с функцией потерь в виде кросс-энтропии, логистическую регрессию, иногда - линейную регрессию и svm, и т.п.
Но, если приглядеться, то можно заметить одно существенное отличие классической ОМП от того "ОМП", что применяется в ml алгоритмах. Приготовились? Наберите воздуха побольше (с)
В классической постановке ОМП у нас есть семейство распределений P_t, есть данные {x1,.. xi,.. xn} , сгенерированные при t=t0, т.е. распределением P_t0, и мы хотим найти это t0 из данных. Для этого мы данные подставляем в произведение плотностей, и находим t, максимизирующее произведение: t_mle = argmax_t П_i {P_t(xi)}.
Теперь, внимание. Среди множества t, по которому мы ищем максимум, есть и то значение t0, при котором была сгенерирована выборка.
А теперь посмотрим на алгоритмы ml. Каждый алгоритм задает семейство распределений Pa_l, где l - параметры алгоритма. НО! Если наш алгоритм не нейронная сеть со 100500 слоями, то среди семейства распределений Pa_l не будет того распредения P_t0, которым были сгенерированы данные {x1,.. xi,.. xn}, потому что алгоритмом мы можем лишь апроксимировать исходное распределение P_t0 с каким то уровнем точности.
Таким образом, задачи обучения ml алгоритма и оттыскания ОМП различаются в существенной детали - множестве распределений, среди которых ищется оптимум. И таким образом, для большинства ml алгоритмов параметры обученного алгоритма будут НЕ ОМП, несмотря на то, что так пишут во многих книгах и статьях. В частности, оценка, получаемая ml алгоритмами, будет даже не состоятельной, в том смысле, что при увеличении количества данных распределеие обученного алгоритма Pa_l0 НЕ БУДЕТ сходиться к исходному распределению P_t0.
А что за оценка получается в этом случае, и какие у нее свойства, я расскажу в следующем посте 😀
источник

AS

Aleksei Shestov in Мехмат МГУ
Итак, мы выяснили, что оценка ОМП в классическом смысле и то "ОМП", которое находят ml алгоритмы, это разные вещи. Что за оценку находят ml алгоритмы?
Когда мы максимизируем правдоподобие на обучающей выборке (как в классическом случае, так и в случае ml алгоритмов), мы находим распределение, минимизирующее дивергенцию Кульбака-Лейблера (KL дивергенцию) https://ru.m.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D1%81%D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D0%B5_%D0%9A%D1%83%D0%BB%D1%8C%D0%B1%D0%B0%D0%BA%D0%B0_%E2%80%94_%D0%9B%D0%B5%D0%B9%D0%B1%D0%BB%D0%B5%D1%80%D0%B0 до эмпирического распределения, построенного по сэмплам {x1,..., xn}. Из этого логично было бы ожидать, что при большом числе сэмплов наша оценка будет сходиться к распределению P_inf, минимизирующему KL дивергенцию до настоящего распределения P_t0. В случае классической ОМП это распределение будет совпадать с распределением P_t0. В случае с ml алгоритмами мы ожидаем, что распределение P_inf будет тем распределением из семейства распределений Pa_l (которые может сгенерировать наш ml алгоритм), которое наиболее близко к P_t0 в смысле KL дивергенции.
И действительно, это выполняется, но при определенных условиях регулярности на семейство Pa_l, подробнее описано в этой https://www.jstor.org/stable/1912526?seq=1 статье. То есть, при определенных условиях регулярности, алгоритм ml находит статистическую оценку l_mle параметров l0, которые наилучшим образом (в смысле KL расстояния) приближают исходное распределение P_t0.
Более того, для этой оценки выполняются многие "хорошие" свойства ОМП, только по отношению к распределению P_l0 (а не P_t0), подробнее, например, в вышеприведенной статье или, более кратко, в http://homepage.ntu.edu.tw/~ckuan/pdf/et01/ch9.pdf , или, еще более кратко, в https://web.stanford.edu/class/archive/stats/stats200/stats200.1172/Lecture16.pdf .
То есть, резюмируя - если семейство распределений Pa_l, которое может выдавать ml алгоритм,  достаточно богатое, чтобы хорошо аппроксимировать исходное распределение данных P_t0, то использование ОМП для нахождения параметров алгоритма действительно обосновано, т.к. мы можем получить "хорошую" статистическую оценку.
источник

N

N in Мехмат МГУ
источник
2020 August 01

СМ

Сергей Морозов... in Мехмат МГУ
источник

AS

Aleksei Shestov in Мехмат МГУ
Ор
источник

RB

Ramzan Bekbulatov in Мехмат МГУ
источник

𝕸

𝕸𝖚𝖗𝖉𝖊𝖗... in Мехмат МГУ
источник

RB

Ramzan Bekbulatov in Мехмат МГУ
источник