跳转到内容

条件熵

本页使用了标题或全文手工转换
维基百科,自由的百科全书

信息论中,条件熵描述了在已知第二个随机变量 的值的前提下,随机变量 的资讯熵还有多少。同其它的资讯熵一样,条件熵也用Sh、nat、Hart等资讯单位表示。基于 条件的 的资讯熵,用 表示。

定义

如果 为变量 在变量 取特定值 条件下的熵,那么 就是 取遍所有可能的 后取平均的结果。

给定随机变量 ,定义域分别为 ,在给定 条件下 的条件熵定义为:[1]

注意: 可以理解,对于确定的 c>0,表达式 0 log 0 和 0 log (c/0) 应被认作等于零。

当且仅当 的值完全由 确定时,。相反,当且仅当 独立随机变量

链式法则

假设两个随机变量 XY 确定的组合系统的联合熵,即我们需要 bit的资讯来描述它的确切状态。 现在,若我们先学习 的值,我们得到了 bits的资讯。 一旦知道了 ,我们只需 bits来描述整个系统的状态。 这个量正是 ,它给出了条件熵的链式法则

链式法则接着上面条件熵的定义:

贝叶斯规则

条件熵的贝叶斯规则英语Bayes' rule表述为

证明. and 。对称性意味着 。将两式相减即为贝叶斯规则。

推广到量子理论

量子资讯论中,条件熵都概括为量子条件熵

参考文献

  1. ^ Cover, Thomas M.; Thomas, Joy A. Elements of information theory 1st. New York: Wiley. 1991. ISBN 0-471-06259-6.