自然语言处理-第五期-Word2Vec Skip Gram_其它 _ 頭條網

背景

上期我们介绍了Bag of Word，它可以将word转换为one-hot vector，即【0，0，0，1】只有一个纬度为1，其他为0 的vector。

也提到了其最大的一个缺点，即可能造成Sparsity（过度离散）的问题。对于该问题Word2Vec给出了一个有意思的解法。

相信大家肯定有类似的经验，就是搜索的时候，会出现一些同义词也被搜索出来，比如 movie和film。这其实是一件很神奇的事情，因为人类语言是symbol，到底是如何做到的呢？希望大家在读完这篇文章之后，能够得到一些答案。

除此之外，本篇还会涉及到神经网络的运用，如果有不清楚的同学可以看第四期或者我的另一片文章“机器学习的hello world” ，如果还有问题，可以留言，我会尽量答复。

Word2Vec

面对的问题及目标

我们的目标是将word向量化。bag of word也是向量化，只是之前的问题很明显。

其实我们只要不转化为one-hot vector。比如只要100个纬度的向量，每个纬度可以为小数自然数。自然其能承载的数量会大幅增加。

【0.1，0.9，8.9，11，7.5】最现实的问题是，我们如何决定每个向量的数值，我们处理的规则是什么呢？

在讲Skip Gram之前插个图，下面这个图是Google AI experiment 的高纬度可视化的网站，大家可以搜索AI experiment google tensorflow就能找到。在网站上做很多有趣的调整。

Word2Vec内在逻辑

Word2Vec有好几种模型，我们今天关注其最普遍的Skip Gram模型。

我们再重复一遍问题，我们的目标是讲word的Vector纬度降低，但是How？这个问题很重要也很难，大家如果凭空想下，实际上你并没有什么原则来处理这些word。

Skip Gram提供来一种思路，就是取一个中心词，然后预测其前后几个位子的词。如下面这个图，'the' 前后两位的词分别是 quick 和brown。

Skip Gram的思路就是训练一个神经网络来预测中心词的附近词。

当然我们的训练需要训练样本，Skip Gram的训练样本就是从普通文本上切下来的一段一段文本（中心词不断右移）

神经网络结构

Skip Gram的神经网络结构大概如下面所示，我们讲分输入层，隐藏层，输出层解释。

输入层，首先Skip Gram还是在处理word vector，所以肯定绕不开 one-hot vector，第一步也是建立一个词库，比如有10000个不同的单词，那么就是一个10000纬度的向量；

隐藏层，隐藏层的神经元个数可以自己设置，该层的个数就是下降后的向量纬度；

输出层，Skip Gram的输出层结构和输入层一样，也是10000个神经元。不同的是激励函数不同，其作用就是将每个神经元的输出变成概率（出现该词的概率）

以下面这个图片为例子，假设只有句子中的9个单词。那么Fox中心词的向量是【0，0，0，1，0，0，0，0，0】

训练样本是（X=【0，0，0，1，0，0，0，0，0】，y=【0，1，1，0，1，1，0，0，0】）

经过神经网络训练，神经网络输出的结果，逐步与训练样本的实际值相近。

神奇的地方来了，假设我们隐藏层设置的是100个神经元。在训练完成之后，当我们输入一个10000纬度向量时，隐藏层会输出一个100纬度的向量。。。这就完成了纬度下降。。。。

总结下

有点绕，总结下。

首先，Skip Gram基于中心词设计了一套训练样本（X，y），其逻辑就是给你中心词，你要能预测出周围的词；

然后，通过神经网络设计如：输入层10000，隐藏层300，输出层10000；

最后，在神经网络训练完成之后，我再将【1，0，0，0.....】输入进去，隐藏层会输出一个300纬度的向量。

铛铛，这就完成了word的将为，成功的将word转化为300纬度的向量。

结果

实际上训练的时候，样本量会非常大。比如从维基百科取很多文本来训练。我的电脑无法搞定这些操作，所以Skip Gram的结果我将引用Stanford公开课CS224 的结果。

首先降纬后，Skip Gram300纬度的向量可以用PAC 3D表现出来，得到一张前面类似的图。

除此之外，更有意思的是，很多同义词会聚合在一起，如下面的图将one two three等数字都聚合在一起了。

另外很有意思的是，也能得到有意思的向量差，比如： Paris-France+Italy 最接近Rome

其实，这种近义词在算法设计时并没有考虑。也没办法用数学证明。但是，也可以推断某些词是很频繁的出现在一起的。比如Happy birthday 之类的，这些词义上的趋势实际在维基百科的文本中就有隐藏。

下期预告

总之呢，这个算法还是蛮有意思的，也很直接。最终的结果也很有意思。最终他也实现了Word的降纬。

这期已经是NLP的第五期了，一直在讲的是单词的处理。最终我们实现了，可以使用的word vector。那么下一期，我们将介绍第一个真正处理这些单词向量的算法。

背景

Word2Vec

结果

下期预告

相關文章:

美图分享：#自拍美图 第五期

【焦点楼评】第五期:旭辉府

第五期：企业生产管理中的数据分析应用

第五期：厚涂大佬更倾向于哪种画风?

【燕子带你发现南通】第五期：从青墩走来——海安

云端开讲，“教授为专业代言”第五期！【材料类】

二马说】第五期：蝴蝶T系列套胶 与D系列套胶

第五期

销魂第五期

“蓉姐说法” 第五期《婚姻法》的这些规定您应该了解

03.08 第五期-没有阳光，就没有雨后的彩虹。

02.27 你们的福利图《第五期》

第五期 连续三日新增零病例，多图复盘深圳战疫政策如何步步到位？

姓氏头像、第五期，近段最潮图像，需要的直接拿走哦

姓氏头像 只争朝夕 不负韶华 第五期

「工作加油站」第五期“餐饮行业用钉钉”征稿

01.11 每期一人物，第五期：里奥·梅西

「男生头像」「第五期」个人收藏偏搞怪风

「Galgame鉴赏自习室」第五期：“神杀”的救赎之路（上）

09.29 《选择说》第五期，温柔的大家闺秀-布偶猫

「会展行业一周资讯」第五期

08.16 「反催收」第五期：当你欠了高炮，最好长痛不如短痛

第五期：实体店生意变成平台模式，90%的人都愿意为这个模式买单

《黄金降落伞》第五期

高速“不系安全带”违法曝光《第五期》

高速“超速”违法曝光《第五期》

P站每日精选辑——第五期

01.31 第五期：刻刻帝—时崎狂三

全面践行绿水青山就是金山银山的理念——海南，不平凡的2018「第五期」

第五期 无聊就来滚一滚 看谁滚得快 雪球大作战

第五期：你我山前没相见，山后别相逢

《梦想改造家》第五期：看美女设计师如何改造落差巨大的家

为严酷环境而生——那些年，Fenix登过的雪山「第五期」

08.28 福清法院督促履行生效法律文书义务通告「第五期」

第五期：《寻根阜阳》之遗失的岁月（有奖竞猜）

兄妹宠文「第五期」：超甜！正太哥哥成宠妹狂魔，简直甜翻了！

《异星工厂》第五期：研究中心规划好了

宫宅斗宠文「第五期」：古代女人的后宫生存，宫斗谋权应有尽有

《狂热运输》第五期：逐渐好转

「肯尼亚贸易对接」第五期 肯尼亚果蔬价格及生活成本

18:00高手哥「103让胜104负」仅供参考

第五期：跟总书记学！

《买房请回答》第五期 成都5.15购房新政疑难解答

寻找隐藏于自然中的动物 第五期

「第五期」又一次分享好看的壁纸美图（5）

「装企有道」第五期，工地营销之：如何戳中用户痛点？

沈巍先生杂谈（358）说好的快手不倒，陪伴到老呢？个个都是戏精

出海奋斗是有胆识后浪的更优选项

甲有5套房，不上班，收房租；乙有1套房，上班赚工资；丙租房子.

每逢佳节被相亲，单身青年看这里！

为珠峰“量身高”，为啥要人上去？

我省获国家局通报表扬

湖南名字最尴尬的城市，90%的人都会想歪，当地人：思想有问题！

超六成前浪点赞《后浪》，全球白手起家90后富豪人均财富190亿

再不来一场精致野餐，我就要被开除中产籍了

工程师我只服中国，曾经放生到三峡的1万条鱼，如今怎么样了？

后疫情时代的五个营销启示

丘北县双龙营镇人民政府普者黑村委会、矣则村委会太阳能路灯采购安装项目竞争性谈判公告

为什么重量相同的金子，银行卖得比金店还便宜？看完涨知识了

打雷的时候，到底要不要拔掉插头，关闭电路呢？看完涨知识了

乘坐火车时，把车票弄丢了怎么处理？看完可算知道了

肖战视频专访：眼里带着故事，请不要听说他，这一次，请他说

秦山核电应急行动水平优化项目招标公告

巴基斯坦SK水电站消防及火灾报警系统设备采购招标招标公告

中煤能源新疆鸿新煤业苇子沟煤矿瓦斯抽采机械设备采购招标公告

县域社区团购，在平台发展上有哪些优势？

和王为念离婚，与“假奶奶”常香玉对簿公堂，55岁小香玉生活如诗

眼力测试：由4字组成的白菜，1秒看出4个字的智商都很高

看图猜字：这个不简单，你能猜对几个？全猜对眼力非凡

眼力测试：火焰中藏了4个字，看出3个算达标，全看出眼力200

小米硬刚德国双立人，400年非洲灌木做家用砧板，不发霉砍不坏

眼力测试：美女图中藏了5个汉字，全部看出来的眼力超群

最萌Hodler，刚出生就收到比特币大学教育基金的宝宝

《瞭望大湾区》：全国中高风险区域今日“清零”

《晨会解读》：中山证券投资顾问杨立华：连续上涨过后注意把握好操作节奏

美图分享：#自拍美图第五期

二马说】第五期：蝴蝶T系列套胶与D系列套胶

第五期连续三日新增零病例，多图复盘深圳战疫政策如何步步到位？

姓氏头像只争朝夕不负韶华第五期

第五期无聊就来滚一滚看谁滚得快雪球大作战

「肯尼亚贸易对接」第五期肯尼亚果蔬价格及生活成本

《买房请回答》第五期成都5.15购房新政疑难解答

寻找隐藏于自然中的动物第五期

衡水：守护一湖碧水打造生态之城

2020珠峰高程复测出发仪式今日举行小米10全程助力丈量世界新高度