信息论是一个重要的领域,它对深入学习和人工智能做出了重大贡献,即便许多人却不知情。信息论是深层学习的基本组成部分,也是微积分、概率和统计的复杂融合。下面是人工智能中一些来自信息论或相关领域的例子:
- 流行交叉熵损失函数
- 基于最大信息增益的决策树构建
- 在NLP和语音中Viterbi算法的广泛应用
- 译码器概念广泛应用于机器翻译、RNNs和其他各种模型。
信息论史简介
在20世纪初,科学家和工程师们一直在努力解决这个问题:"如何量化信息?"是否有一种分析方法或一种数学方法可以告诉我们有关信息内容的情况?"例如,考虑以下两句话:
布鲁诺是只狗。
布鲁诺是只棕色的大狗。
不难看出,第二句给了我们更多的信息,因为它也告诉我们,得到的信息除了是"狗"意外,还有"大"和"棕色"两个特征。我们如何量化两个句子之间的差异?我们能有一个数学度量来告诉我们第二句相对于第一句有多少信息吗?
科学家们正在努力解决这些问题。很明显,语义、领域和数据形式无疑会增加问题的复杂性。直至后来,数学家、工程师Claude Shannon(克劳德·香农)提出了"熵"的概念,从此改变了我们的世界,标志着"数字信息时代"的开始。
克劳德·香农在1948年引入了"比特"这个词。
克劳德·香农提出"数据的语义方面是无关紧要的这一观点",认为数据的性质和意义在信息内容方面并不重要。因此,他用概率分布和"不确定性"来量化信息。香农还引入了"位(bit)"这个词,并谦逊地把这个词归功于他的同事约翰·图基。这一革命性的思想不仅奠定了信息论的基础,而且为人工智能等领域的发展开辟了新的途径。
下面我们将对信息论概念进行讨论:
熵
又称信息熵或香农熵。
熵是实验中随机性或不确定性的度量。
直观判断
熵给出了一种测量实验中不确定性的方法。让我们考虑两个实验:
1.抛一枚"正常"的硬币(P(H)=0.5)并观察其输出
2.抛出一枚"动过手脚"的硬币(P(H)=0.99)并观察其输出
如果我们比较这两个实验,可以说 2与1相比,更容易预测结果。因此,我们可以说1本身就比2更不确定/不可预测。而不确定度就是用熵来测量的。
因此,如果实验中存在更多的固有不确定性,那么它就具有较高的熵。我们大多通过利用实验的概率分布计算熵。
一个确定性的实验,它是完全可以预测的,比如说抛硬币,当P(H)=1时,它的熵为零。一个完全随机的实验,比如滚动公平骰子,是极难预测的,具有最大的不确定性和最高的熵。
另一种看待熵的方法是当我们观察随机实验的结果时所获得的平均信息。实验结果所获得的信息被定义为该结果发生概率的函数。结果越少,从观察中获得的信息就越多。
例如,在一个确定性的实验中,我们总是知道结果,也没有从观察中获得新的信息,因此熵是零的。
函数
关于离散随机变量X,具有可能的结果(状态)x_1,…,x_n以"位"为单位的熵定义为:
其中p(X_I)是第一次结果的概率。
应用
1.熵用于决策树的构建。在树构建的每一步,都采用熵准则进行特征选择
2.基于最大熵原理的模型选择是最优的
交叉熵
直观判断
利用交叉熵对两种概率分布进行比较。它将告诉我们这两种概率是否相似。
函数
两种概率分布间的交叉熵P和q对同一组结果的定义如下:
应用
1.交叉熵损失函数在Logistic回归等分类模型中得到了广泛的应用
2.交叉熵损失函数随着预测结果偏离真实输出而增加
3.在卷积神经网络等深度学习结构中,最终输出的"Softmax"层经常使用交叉熵损失函数
互信息
直观判断
互信息是衡量两个概率分布或随机变量之间相互依赖的度量。它告诉我们一个变量信息的多少是往往与另一个变量有关的。
互信息捕获随机变量之间的相关性,比vanilla相关系数更广义,后者只捕捉线性关系。
函数
两个离散随机变量的互信息X和Y型定义为:
其中p(x,y)是X和Y的联合概率分布,p(x)和p(y)分别是X和Y的边际概率分布。
应用
特征选择:这里建议使用互信息而不是相关性。因为相关性仅捕获线性依赖关系,而遗漏了非线性依赖关系(但互信息却没有)。这里需要补充的是,零互信可以保证随机变量是独立的,但零相关不行。
在贝叶斯网络中,互信息被用来学习随机变量之间的关系结构,并定义这些关系的强度。
Kullback Leiber(KL)发散,又称相对熵
直观判断
KL发散是寻找两个概率分布相似性的另一个度量。它测量一个分布与另一个分布的分异程度。
假设,我们有一些数据,它的真正分布是'P'。但是我们不知道这个'P',所以我们选择一个新的分布'q'来近似这个数据。因为'q'只是一个近似,它就不能像'P'一样接近数据,并且会发生一些信息损失。这种信息损失是由KL发散引起的。
'P'和'q'之间的KL差异告诉我们,当我们试图用'q'近似'P'给出的数据时,我们损失了多少信息。
函数
概率分布的KL散度q从另一种概率分布P定义为:
应用
KL散度是无监督机器学习技术中常用的自动编码器。
信息论最初是由数学家和电气工程师克劳德·香农在1948年发表的开创性论文"传播的数学理论"中提出的。
閱讀更多 AI中國 的文章