эту функцию можно рассмотреть как эвристику для минимизации глубины дерева.
Для меня меня более интуитивно видеть эту функцию как минимизацию weighted train error in children, то есть чем меньше энтропия детей, тем больше экземплов будет у детей, тем меньше будет глубина. Как бы такая перспектива.