随机变量的数字特征的一个应用:信息熵

如何表达一段信息的信息含量呢,特别是在这个垃圾信息充斥的时代更显得有必要。大牛香农认为应该用信息的不确定度(有序度)来表达,信息的不确定越小表达的信息越准确那么其有效信息的含量就越大。而在热力学中有专门的熵的概念来表达系统的有序度也就是不确定度,香农将其借鉴过来定义了信息熵:H=p(-logp),p为某符号出现的概率,-logp为概率密度函数。这个形式不就是-logp函数的数学期望嘛!而选择-logp这形式是因为信元出现要满足概率越大不确定性越小的关系,p与f(p)之间应该满足减函数,同时两个独立的符号之间应满足f(p1,p2)=f(p1)+f(p2),所以香农就猜出了一个-logp作为不确定度的表达式。比如一篇文章的信息熵可以表示为∑p(-logp),p为每个独立单词的出现的先验概率。


随机变量的数字特征的一个应用:信息熵


分享到:


相關文章: