条件熵

在信息论中，条件熵描述了在已知第二个随机变量 $X$ 的值的前提下，随机变量 $Y$ 的信息熵还有多少。同其它的信息熵一样，条件熵也用Sh、nat、Hart等信息单位表示。基于 $X$ 条件的 $Y$ 的信息熵，用 $\mathrm {H} (Y|X)$ 表示。

定义

如果 $\mathrm {H} (Y|X=x)$ 为变量 $Y$ 在变量 $X$ 取特定值 $x$ 条件下的熵，那么 $\mathrm {H} (Y|X)$ 就是 $\mathrm {H} (Y|X=x)$ 在 $X$ 取遍所有可能的 $x$ 后取平均的结果。

给定随机变量 $X$ 与 $Y$ ，定义域分别为 ${\mathcal {X}}$ 与 ${\mathcal {Y}}$ ，在给定 $X$ 条件下 $Y$ 的条件熵定义为：^[1]

{\begin{aligned}\mathrm {H} (Y|X)\ &\equiv \sum _{x\in {\mathcal {X}}}\,p(x)\,\mathrm {H} (Y|X=x)\\&=-\sum _{x\in {\mathcal {X}}}p(x)\sum _{y\in {\mathcal {Y}}}\,p(y|x)\,\log \,p(y|x)\\&=-\sum _{x\in {\mathcal {X}}}\sum _{y\in {\mathcal {Y}}}\,p(x,y)\,\log \,p(y|x)\\&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log \,p(y|x)\\&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log {\frac {p(x,y)}{p(x)}}.\\&=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log {\frac {p(x)}{p(x,y)}}.\\\end{aligned}}

注意： 可以理解，对于确定的 c>0，表达式 0 log 0 和 0 log (c/0) 应被认作等于零。

当且仅当 $Y$ 的值完全由 $X$ 确定时， $\mathrm {H} (Y|X)=0$ 。相反，当且仅当 $Y$ 和 $X$ 为独立随机变量时 $\mathrm {H} (Y|X)=\mathrm {H} (Y)$ 。

链式法则

假设两个随机变量 X 和 Y 确定的组合系统的联合熵为 $\mathrm {H} (X,Y)$ ，即我们需要 $\mathrm {H} (X,Y)$ bit的信息来描述它的确切状态。现在，若我们先学习 $X$ 的值，我们得到了 $\mathrm {H} (X)$ bits的信息。一旦知道了 $X$ ，我们只需 $\mathrm {H} (X,Y)-\mathrm {H} (X)$ bits来描述整个系统的状态。这个量正是 $\mathrm {H} (Y|X)$ ，它给出了条件熵的链式法则：