第一眼看到最大熵模型,这是太突兀了,完全不知道如何想出来了,感觉国内这种直接给定义的方式限制了大家的想象力。下面解释一下这个问题:
熵:$H(X) = -\sum_{x}p(x)log(p(x))$
条件熵:$H(Y|X) = H(X, Y) - H(X)$
$= -\sum_{x,y}p(x,y)log(p(x,y)) + \sum_xp(x)log(p(x))$
$=-\sum_{x,y}p(x,y)log(p(x,y)) + \sum_x(\sum_yp(x,y))log(p(x))$
$= -\sum_{x,y}p(x,y)log(p(x,y)) + \sum_{x,y}p(x,y)log(p(x))$
$= -\sum_{x,y}p(x,y)log\frac{p(x,y)}{p(x)}$
$= - \sum_{x,y}p(x,y)log(p(y|x))$
$=-\sum_{x,y}p(y|x)\overline{p(x)}log(p(y|x)$
其中加横线的p(x)表示根据数据统计出来的经验分布。
这里的条件熵就是统计学习方法中讲的最大熵模型,如果书本上能这样写的话,更能方便理解。
参考资料: