Word嵌入是文檔詞彙表最常用的表示形式之一。它能夠捕獲文檔中單詞的上下文、語義和句法相似性、與其他單詞的關係等。

什麼是嵌入?粗略地說，它們是一個特定單詞的向量表示形式。接下來是我們如何生成它們?更重要的是，他們如何捕捉上下文?

Word2Vec是目前最流行的一種利用淺層神經網絡學習詞綴的技術。它是由Tomas Mikolov於2013年在谷歌開發的。

我們為什麼需要它們?

考慮以下相似的句子:Have a good day 和 Have a great day。它們幾乎意思相同。如果我們構建一個詳盡的詞彙表(我們稱它為V)，它將有V = {have, a, good, great, day}。

現在，讓我們為V中的每個單詞創建一個one -hot編碼的向量，one -hot編碼的向量的長度等於V(=5)的大小。除了索引處的元素表示詞彙表中對應的單詞外，我們將有一個0向量。這個特定的元素是1。下面的編碼可以更好地解釋這一點。

Have = [1,0,0,0,0]`; a=[0,1,0,0,0]` ; good=[0,0,1,0,0]` ; great=[0,0,0,1,0]` ; day=[0,0,0,0,1]` (` 代表轉置)

如果我們試著將這些編碼形象化，我們可以想象一個5維空間，其中每個單詞佔據一個維度，而與其他維度無關(沒有沿著其他維度的投影)。這意味著“good”和“great”就像“day”和“have”一樣不同，這是不對的。

我們的目標是讓具有相似語境的詞佔據相近的空間位置。從數學上講，這些向量之間的夾角的餘弦值應該接近於1，即夾角接近於0。

以下是生成分佈式表示的想法。直覺上，我們引入了一個詞對另一個詞的依賴關係。這個詞的上下文中的詞會得到更多的依賴。正如前面提到的，在one-hot編碼表示中，所有的單詞都是相互獨立的。

Word2Vec如何工作？

Word2Vec是一種構造這種嵌入的方法。它可以使用兩種方法（均涉及神經網絡）獲得：Skip Gram和Common Bag of Words（CBOW）

CBOW模型：此方法將每個單詞的上下文作為輸入，並嘗試預測與上下文對應的單詞。考慮我們的例子：Have a great day。

請注意，這裡我們嘗試使用單個上下文輸入字來預測目標字（day ）。更具體地說，我們使用輸入字的one-hot編碼，並測量與目標字（day）的one-hot編碼相比的輸出誤差。在預測目標詞的過程中，我們學習目標詞的矢量表示。

讓我們深入瞭解實際架構。

輸入或上下文單詞是一個大小為V的one-hot編碼向量，隱藏層包含N個神經元，輸出又是一個長度為V的向量，元素為softmax值。

讓我們來了解一下圖片中的各項:

- Wvn是將輸入x映射到隱藏層的權重矩陣(V*N維矩陣)

-W 'nv是將隱藏層輸出映射到最終輸出層的權重矩陣(N*V維矩陣)

隱藏層神經元只是將輸入的權重和複製到下一層。沒有像sigmoid, tanh或ReLU那樣的激活。唯一的非線性是輸出層的softmax計算。

但是，上面的模型使用單個上下文詞來預測目標。我們可以使用多個上下文詞來做同樣的事情。

上面的模型使用C上下文單詞。當使用Wvn計算隱藏層輸入時，我們取所有這些C上下文詞輸入的平均值。

因此，我們已經看到了如何使用上下文單詞生成單詞表示。但還有一種方法我們也可以這麼做。我們可以使用目標詞(我們希望生成其表示形式)來預測上下文，在此過程中，我們生成表示形式。另一種被稱為Skip Gram model的變體就是這樣做的。

Skip-Gram model:

這看起來像 multiple-context CBOW模型剛剛被翻轉。在某種程度上，這是事實。

我們將目標詞輸入網絡。模型輸出C個概率分佈。這是什麼意思?

對於每個上下文位置，我們得到V概率的C概率分佈，每個單詞有1個。

在這兩種情況下，網絡都使用神經網絡的反向傳播來學習。

哪個好一些？

兩者各有利弊。根據Mikolov的說法，Skip Gram可以很好地處理少量數據，並且可以很好地代表罕見的單詞。

另一方面，CBOW更快，並且對更頻繁的單詞具有更好的表示。

最後

以上解釋是非常基本的。它只是讓您瞭解嵌入字是什麼以及Word2Vec如何工作。

還有很多東西。例如，為了使算法在計算上更有效，使用諸如Hierarchical Softmax和Skip-Gram Negative Sampling之類的技巧

分享到:

閱讀更多 不靠譜的貓 的文章

關鍵字: 數學 Word 人工智能

機器學習：Word嵌入和Word2Vec簡介

我們為什麼需要它們?

Word2Vec如何工作？

哪個好一些？

最後

相關文章:

機器學習：Word嵌入和Word2Vec簡介

我們為什麼需要它們?

Word2Vec如何工作？

哪個好一些？

最後

相關文章:

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

為什麼只有edg賺錢？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

小高層16層高樓間距60米哪一層比較好？

金銀花盆栽好養嗎？怎麼養？

長城對於抵禦古代匈奴和蒙古人起到了多大作用？

什麼樹可以嫁接臘梅？

行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？

在農村“立夏節”都有哪些民間習俗？

男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？

工程分包乙方人員傷殘誰承擔？

有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？

13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？

22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？

如何騎車去臺灣騎行？

本人預算5萬左右，想買一輛二手法系車！求推薦？

14年進口馬自達5PK進口10年道奇酷威買哪個划算？

2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

本田CRV2019款1.5T舒適版油耗高嗎？

國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？

本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？

現在存款有14萬，借了5萬還沒收回來，該做什麼好？

2070super和5700xt買哪個比較好？

生完二胎後，感覺自己有點抑鬱，總是想發火，特別煩躁，怎麼辦？

人這一生遇到的人和事為什麼感覺都像是必然的經歷？

現在校內校外到底教的是美式英語還是英式英語還是混搭英語？

上有老下有小，我們真的跳不出這個人生循環了嗎？

如果外面正在下小雨，你會突然想起了誰？

初中同學許久未見大學期間突然聯繫請吃飯，態度還良好，我給推了，會不會讓人很煩？

現在我覺得認真對某個人說我喜歡你什麼的這種話好惡心，我愛你更說不出口，好惡心，是什麼心理？

劇版的《何以笙簫默》和《再見王瀝川》哪一個更好看呢？

計算機專業本科能夠進入字節跳動、華為這些公司做開發嗎？是否還需要繼續讀研？

生完二胎的你們，現在有什麼感想？

華北適合種植蠶豆嗎？

華為手機更新EMUI10.1系統後效果咋樣？

大熱天蜜蜂老是爬到箱外結群正常嗎？

辣椒正是生長最佳期，偏偏有的辣椒苗蔫，不是病蟲害是咋回事？

手機相機發展的最終形態會是怎樣的？

華為為什麼不出一款5寸全面屏手機呢？我想應該會有很多人支持吧？

生吃山芋，生吃胡蘿蔔，還有哪些蔬菜可以生吃呢？

為什麼馬鈴薯不宜過早過遲播種？

疫情愈發嚴重，原油為何反而大漲？

生菜球很好吃，怎麼種植才能高產呢？

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？ ？

大家幫忙看看這個房子如果要砸牆的話，怎麼改比較好？

意蜂夏季喝什麼水降溫？

黃瓜種子催芽後種植需要打底水嗎？

書友們展示一下自我感覺發揮較好的作品，一起學習？

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？