现代人离不开的信息论01——信息产生

信息时代最大的特征是不确定性,而信息论是解决不确定性问题最有效的工具。

介绍信息论从信息的产生、信息的传播、信息的应用三方面阐述,本文重点介绍信息产生。

现代人离不开的信息论01——信息产生

01 信息度量

我们把充满不确定性的黑盒子叫做“信息源”,它里面的不确定性叫做“信息熵”,而“信息”就是用来消除这些不确定性的,搞清楚黑盒子里是怎么一回事,需要的“信息量”就等于盒子里的“信息熵”。

信息是可以度量的,“比特”是度量信息量的基本单位。

很多复杂交易和产品都是利用了信息的可度量性,把信息问题变成了概率问题。多了解信息论和基本的数据常识,可以在生活中省下不少冤枉钱。

02 信息编码

现代人离不开的信息论01——信息产生

霍夫曼编码

香农第一定理,编码长度≧信息熵/每一个码的信息量。

信息编码要遵循易辨识和有效性两个基本原理。

有效编码,其实就是让理论最佳值在应用中落地。同理,知识学习了之后,只有真正使用了,才能变成自己的东西,因此学以致用比学习更重要。

最短编码:霍夫曼编码。

最好、最重要的资源要用于哪些出现最频繁的事情,这样分配资源最有效。

利用霍夫曼编码的做事方式,从不排斥尝试新东西,这样就不会失去机会,但是花了精力也没做好的项目,要坚决止损做减法,以保证把最好的资源投入到最擅长、成功率最高的事情上。

03 矢量化

现代人离不开的信息论01——信息产生

矢量图

人类象形文字的演化实际上就是一个矢量化的过程。

矢量化让问题变得简单,但是会丢失信息,而平衡便利性和信息的完整性,就是一门艺术了。

人年轻的时候,总想两者兼而有之,学习了各种科学知识后,就知道这种实行在理论行就办不到。

世界上人为想做的,但违背规律的事情,做起来总是困难重重。

04 冗余度

冗余度是对信息“密集”和“稀疏”程度的描述。

冗余度=(信息的编码长度-一条信息的信息量)/信息的编码长度

冗余的优点:易理解、消除歧义性、容错性

冗余的缺点:存储和传递信息时的浪费;如果混有噪音,可能导致错误。

相对于英语来书,汉字冗余度低,所以难学。

做事心得:读书要把书读薄,读出主线。

05 等价性

善用等价信息,这是我们这个时代每一个人都必须掌握的工作技巧。

傅里叶变换

应用案例如语言压缩、图像压缩、核磁共振。

06 信息增量

主帧+增量编码的方法

应用案例:视频压缩(这也是为什么视频压缩比率比图片压缩比率高的原因)、谷歌存储网页

信息增量可以应用,是由世界渐变的特性决定的。

信息增量原理,解释了为什么保守主义的做事方式成本最低。

思考生活、工作的“主帧”。

07 信息压缩

信息压缩分为无损压缩和有损压缩。

无损压缩:仅适用傅里叶变换、霍夫曼编码

有损压缩的三个原则;

  • 世界上很多时候没有做好的技术方案,只能根据场景找到合适的,因此做事的目的性很重要。
  • 丢失一部分信息,一定会增加不确定性。用的信息少,永远不可能做的和原来一样好。
  • 要看应用场景,根据不同场景使用不同压缩算法(保留内容,保留口音,去除高频),通常是“枪打出头鸟”。

08 信息正交性

利用和组合信息,提高决策水平。

信息正交时,消除不确定时效果最好。

应用案例明信片识别(图像识别+网络信息)

找正交信息的三个原则:

  • 不同信息源
  • 避免使用相互嵌套、相互包含的信息
  • 从多个不同角度看

处理信息的两个方法:不断叠加(最佳、次佳、次次佳...)、不断删除(最差、次差、次次差...)

09 互信息

互信息是判断信息相关程度大小的工具。

找强相关性,弱相关性没有用,相关不是因果,同时切记因果倒置。

10 条件熵和信息增益

信息熵H(X) ≧ 条件熵H(X|Y)

信息增益IG(Y1)=H(X)-H(X|Y1)

标新立异才有可能提供信息增量。对于每个人,第一个发表意见,以及能够发表与众不同的意见,对提高自己的影响力至关重要。

11 置信度

就拿掷硬币来说,你与多达把握说硬币不均匀,正面朝上的概率更大,这个把握就是置信度。

置信度不到95%的结论不能相信,如掷硬币要140次以后。

只有被重复检验足够多次之后,置信度才高,这样的经验才可靠。

12 交叉熵

你的猜测和真实情况完全一致,你不损失任何东西,但只要不一致,就会或多或少有损失。

你的猜测和真实情况相差越大,损失越大。特别是原来以为的小概率事件发生了,损失最大,那些就是所谓的黑天鹅事件。

自大的人容易遗漏很多原本应该考虑的事情,如赵括、马谡。

过分防范各种情况,患得患失,也会有损失。

任何硬性的决定都要损失信息,避免all in。

学习笔记——吴军博士的《信息论40讲》


分享到:


相關文章: