Итак, мы выяснили, что оценка ОМП в классическом смысле и то "ОМП", которое находят ml алгоритмы, это разные вещи. Что за оценку находят ml алгоритмы?
Когда мы максимизируем правдоподобие на обучающей выборке (как в классическом случае, так и в случае ml алгоритмов), мы находим распределение, минимизирующее дивергенцию Кульбака-Лейблера (KL дивергенцию)
https://ru.m.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D1%81%D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D0%B5_%D0%9A%D1%83%D0%BB%D1%8C%D0%B1%D0%B0%D0%BA%D0%B0_%E2%80%94_%D0%9B%D0%B5%D0%B9%D0%B1%D0%BB%D0%B5%D1%80%D0%B0 до эмпирического распределения, построенного по сэмплам {x1,..., xn}. Из этого логично было бы ожидать, что при большом числе сэмплов наша оценка будет сходиться к распределению P_inf, минимизирующему KL дивергенцию до настоящего распределения P_t0. В случае классической ОМП это распределение будет совпадать с распределением P_t0. В случае с ml алгоритмами мы ожидаем, что распределение P_inf будет тем распределением из семейства распределений Pa_l (которые может сгенерировать наш ml алгоритм), которое наиболее близко к P_t0 в смысле KL дивергенции.
И действительно, это выполняется, но при определенных условиях регулярности на семейство Pa_l, подробнее описано в этой
https://www.jstor.org/stable/1912526?seq=1 статье. То есть, при определенных условиях регулярности, алгоритм ml находит статистическую оценку l_mle параметров l0, которые наилучшим образом (в смысле KL расстояния) приближают исходное распределение P_t0.
Более того, для этой оценки выполняются многие "хорошие" свойства ОМП, только по отношению к распределению P_l0 (а не P_t0), подробнее, например, в вышеприведенной статье или, более кратко, в
http://homepage.ntu.edu.tw/~ckuan/pdf/et01/ch9.pdf , или, еще более кратко, в
https://web.stanford.edu/class/archive/stats/stats200/stats200.1172/Lecture16.pdf .
То есть, резюмируя - если семейство распределений Pa_l, которое может выдавать ml алгоритм, достаточно богатое, чтобы хорошо аппроксимировать исходное распределение данных P_t0, то использование ОМП для нахождения параметров алгоритма действительно обосновано, т.к. мы можем получить "хорошую" статистическую оценку.