【ACM】大文本語料庫中詞嵌入的異部訓練

2020-04-19 13:14:31 RoboticAI

標題：Asynchronous Training of Word Embeddings for Large Text Corpora

作者：Avishek Anand, Megha Khosla , Jaspreet Singh,Jan Hendrik Zab, Zijian Zhang

來源: WSDM'19: Proceedings of the Twelfth ACM International Conference on Web Search and Data Mining （第十二屆ACM網絡搜索和數據挖掘國際會議）

編譯：李灝城，孫靜正，劉博藝，數據挖掘組

摘要

詞嵌入是一種強大的語言分析方法，在信息檢索和文本挖掘等眾多任務中得到了廣泛的應用。在大型語料庫上進行嵌入式培訓在計算上非常昂貴，因為輸入通常是按順序處理的，並且參數是同步更新的。已經提出的用於異步培訓的分佈式體系結構要麼關注詞彙表大小和維度的縮放，要麼承受昂貴的同步延遲。在本文中，我們提出了一種可擴展的方法來訓練詞嵌入，它通過對輸入空間進行分區來實現大規模的文本語料庫的擴展，同時又不犧牲嵌入的性能。我們的訓練過程不涉及任何參數同步，除了最後一個通常在幾分鐘內執行的子模型合併階段。我們的分佈式訓練可以無縫地擴展到大型語料庫，我們使用我們的分佈式過程所訓練的模型，在各種NLP基準測試中獲得可比較的、有時甚至高達45%的性能改進，而這隻需要基線方法所用時間的1/10。最後，我們還證明了我們對子模型中缺失的單詞具有很強的魯棒性，並且能夠有效地重建單詞表示。

核心內容

什麼是詞嵌入？

詞嵌入（word embedding）又稱詞向量，是一種詞轉化成一種分佈式表示，是將詞彙映射到實數向量的方法總稱。分佈式表示將詞表示成一個定長的連續的稠密向量。詞嵌入是自然語言處理（NLP）的重要突破之一。

解釋：詞嵌入實際上是一類技術，單個詞在預定義的向量空間中被表示為實數向量，每個單詞都映射到一個向量。舉個例子，比如在一個文本中包含“貓”“狗”“愛情”等若干單詞，而這若干單詞映射到向量空間中，“貓”對應的向量為（0.1 0.2 0.3），“狗”對應的向量為（0.2 0.2 0.4），“愛情”對應的映射為（-0.4 -0.5 -0.2）（本數據僅為示意）。像這種將文X{x12345……xn12345……yn}，這個映射的過程就叫做詞嵌入。

目的：通過詞嵌入這種方式將單詞轉變為詞向量，機器便可對單詞進行計算，通過計算不同詞向量之間夾角餘弦值cosine而得出單詞之間的相似性。

意義：通過詞嵌入這種方式將單詞轉變為詞向量，機器便可對單詞進行計算，通過計算不同詞向量之間夾角餘弦值cosine而得出單詞之間的相似性。

——來自CSDN

詞嵌入算法發展：

單詞表示通常是通過無監督的方式從大型文本語料庫中學習的——傳統上是通過矩陣分解方法學習，最近則是通過使用神經網絡學習。

Word2Vec（Word to Vector）

一個特別流行的實現是帶負抽樣的跳躍(SGNS)，也稱為Word2Vec。SGNS方法的流行是由於基於異步梯度下降(通過無鎖更新和使用負採樣、子採樣和詞彙剪枝進行細緻的模型更新)的改進，訓練時間更快。缺點：儘管這些改進提高了實例級訓練的速度，但輸入本身必須按順序處理，從而降低了訓練大量數據集的速度。

創新：

針對SGNS的分佈式體系結構也已經被提出，但是目標不同。有的嘗試通過劃分嵌入維度來擴展SGNS訓練，有的通過劃分詞彙空間來擴展到更大的詞彙量。本論文則使用劃分輸入空間的方法。

在本文中提出了一種可擴展的方法來訓練詞嵌入，即通過劃分輸入空間來擴展到大量的文本語料庫，同時又不犧牲嵌入的性能。在大量的詞相似，類比和分類基準方面，與使用的集中的和分佈式的基線方法相比較，這種方法是簡單的，易於實現和有效的。

詳細方法

Step1：

劃分階段：

這個階段，使用的策略是將數據劃分為若干個子語料庫，這樣就可以保留unigram和bigram分佈。

為確保在子語料庫中不漏掉單詞和單詞上下文，實驗提出了一種簡單而有效的隨機抽樣方法，將輸入數據(一組句子)分成多個較小的子語料庫。特別地，實驗建議使用r(In %)的抽樣率進行隨機抽樣，即從rN /100個句子中分別選擇100/r個樣本，每個樣本獨立地、均勻地隨機地選擇句子，並進行替換。

Step2：

訓練階段：

研究通過MapReduce框架中實現了採樣和培訓，以利用並行數據加載和處理。與早期的工作不同，實驗採用無狀態的方法進行培訓。映射者負責將輸入採樣到子語料庫中，而還原者負責訓練。請注意，一個句子可以被分配給多個子語料庫。

ShuffleApproach

為了確保相同的模型接收到完全相同的輸入，需要對樣本進行一定程度的物化(假設輸入不是駐留在內存中)。研究提出了一種稱為Shuffle的無狀態方法，在每個epoch (MapReduce輪)中，不要求每個子模型接收與前一輪/秒相同的輸入樣本。注意，即使不是相同的訓練數據，每個子模型仍然接收整個輸入數據的相同部分。這樣做有兩個明顯的好處。首先，培訓過程是真正無狀態的，因此是可伸縮的。這是因為實驗不需要確保相同的訓練實例使用相同的縮減器，而這通常是使用基於內容的哈希技術實現的。其次，更重要的是，為相同的模型提供跨epoch的不同樣本具有正則化效果，並且比跨epoch看到相同的輸入時表現得更好。

Step 3：

合併階段：

在這個階段中，本實驗致力於找到一個單一的嵌入矩陣(有時也稱為一致嵌入矩陣)，這個矩陣給出了d維單詞嵌入矩陣。這裡區分了兩種情況:(1)所有的n個子模型都有相同的詞彙表;(2)存在一個或多個給定矩陣中缺失的單詞(存在於至少一個子模型中)

對於第一種情況：將子模型與通用詞彙表合併。一種很簡單的方法是將得到的矩陣連接起來，以獲得最終的表示。然而，在存在大量子模型的情況下，合併矩陣的大小可能已經變得很大，因此不受歡迎。另一個簡單的替代方法是在連接的矩陣上使用主成分分析或或PCA，並使用PCA作為一種表示的原則組件的子集，並使用主成分的一個子集作為表示。

對於第二種情況：用部分詞彙表合併子模型。研究發展了GeneralizedProcrustes

Analysis (GPA) 方法來理詞彙缺失的問題。尋求共識表示的GPA方法可以總結如下：

(1)對組合表示進行初始化，例如通過隨機選擇其中一個表示或使用隨機值來初始化Y。

(2)將所有表示與Y對齊。

(3)計算Y '為對齊表示的均值。

(4)如果Y和Y '之間的誤差大於閾值，則設Y = Y '，返回步驟2。

主要試驗情況

實驗設置：

表1:基準數據統計（論文選擇基準數據來評估相似度、分類和類比任務）

數據集使用：

實驗中使用了兩個大型文本數據集，Wikipedia和Web。這兩個語料庫都是通過去除非文本元素、句子拆分和標記化來預處理的。

維基百科：維基百科的語料庫包含了4,227,933個句子，跨越2,313,580,449個標記。實驗使用Wikipedia語料庫進行所有的有效性和可伸縮性實驗。

Web：是指2007年從.co.網站上抓取的大量網頁的文本語料庫。數據集是286 GB未壓縮的。Web語料庫要大得多，包含1198、460、804個句子和47、297、217、342個標記。只可在可伸縮性實驗中使用Web語料庫，因為Web構建基線模型在計算上是不允許的。

模型構建：

實驗將Hogwild基線和子模型的維數固定為500。對於Hogwild和Shuffle方法，在訓練前將兩個數據集的詞彙量設置為300,000(按頻率過濾)。

表2:不同抽樣策略的評價結果。使用ALiR合併初始化與Pca和運行3個紀元。括號中的數字表示每個基準測試的詞彙表中沒有出現在最終合併模型中的單詞數。帶下劃線的值對應於每個基準的每採樣率的最佳結果。粗體表示每個基準測試的最佳結果。

實驗結果：

圖2:以10%的採樣率訓練Wikipedia和Web數據集的比例遞增所需的時間。相比之間合併時間太小了，選擇忽略。

詞彙稀疏和缺失的影響

為了更加精確的研究詞彙缺失對ALiR，Concat和Pca三種訓練方法的影響，實驗通過系統地從子模型中刪除基準詞來模擬更多OOV術語的影響。圖3顯示了從至少一個子模型的每個基準中刪除10%和50%的唯一單詞的效果。

從子模型中刪除10%基準測試

從子模型中刪除50%基準測試詞

圖3（上述兩圖）: 從基準測試中刪除至少一個子模型的唯一單詞的k%後，使用ALiR，與Concat和Pca進行缺失詞重建的表現對比。

對照分析：在相同的基準測試中，當刪除10%的基準測試詞時，ALiR的表現與Concat和Pca的表現相當，而後者的表現則要差得多。當刪除50%的唯一單詞時，這種效果在所有基準測試中都更明顯。雖然ALiR的表現略有下降，但Concat和Pca的表現下降幅度很大(男性患者中，Concat和Pca分別為0.59和0.27、0.57和0.17)。這個結果表明，對於詞彙量非常大的集合，即使各個子模型中的詞彙量不一致，使用ALiR的並行異步訓練過程也可以找到良好的表示。

原文鏈接：https://doi.org/10.1145/3289600.3291011

Abstract

Word embeddings are a powerful approach for analyzing language and have been widely popular in numerous tasks in information retrieval and text mining. Training embeddings over huge corpora is computationally expensive because the input is typically sequentially processed and parameters are synchronously updated. Distributed architectures for asynchronous training that have been proposed either focus on scaling vocabulary sizes and dimensionality or suffer from expensive synchronization latencies. In this paper, we propose a scalable approach to train word embeddings by partitioning the input space instead in order to scale to massive text corpora while not sacrificing the performance of the embeddings. Our training procedure does not involve any parameter synchronization except a final sub-model merge phase that typically executes in a few minutes. Our distributed training scales seamlessly to large corpus sizes and we get comparable and sometimes even up to 45% performance improvement in a variety of NLP benchmarks using models trained by our distributed procedure which requires 1/10 of the time taken by the baseline approach. Finally we also show that we are robust to missing words in submodels and are able to effectively reconstruct word representations.

分享到:

閱讀更多 RoboticAI 的文章

關鍵字: MapReduce Word 搜索引擎

中文自然語言處理測評數據集、基準模型、語料庫、排行榜整理分享

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"