ELMo深層語境化的詞表徵

ELMo深層語境化的詞表徵

Deep contextualized word representations

原文:https://arxiv.org/abs/1802.05365

作者:Matthew E. Peters等人

時長:約8000字,約20分鐘


摘要

我們提出了一種新型的深層語境化的詞表徵,該方法不僅對詞語用法的複雜特徵建模(如語法和語義),還對這些詞語用法在不同語境中的變化方式建模(如多義性)。我們的詞向量是一個深層雙向語言模型(biLM)的內部狀態的學習函數,該模型是在大型文本語料庫上預訓練而來。我們證明,這些表徵可以很容易地添加到現有模型中,並且顯著地提升了六個具有挑戰性的NLP問題的最新水平,包括問答、文本蘊涵、情感分析。我們還提出了一個分析,它表明暴露一個預訓練網絡的深層內部結構是至關重要的,允許下游模型混合不同類型的半監督信號。

1 引言

預訓練的詞表徵(Mikolov等人,2013;Pennington等人,2014)是許多神經語言理解模型的關鍵組成部分。但是,學習高質量的表徵具有挑戰性。理想情況下,它們不僅應該對詞語用法的複雜特徵建模(如語法和語義),還應該對這些詞語用法在不同語境中的變化方式建模(如多義性)。在本文中,我們提出了一種新型的深層語境化的詞表徵,該方法可以直接解決這兩個難題,並且可以很容易地集成都現有模型中,並且在一系列具有挑戰性的語言理解問題中顯著地改善了每一種考慮到的情況下的最新水平。

我們的詞表徵不同於傳統的詞嵌入,因為每個符號都被分配了一個表徵,該表徵是整個輸入語句的函數。我們使用一個從雙向LSTM派生而來的向量,該向量是在大型文本語料庫上使用一對語言模型目標訓練而來。因此,我們稱它們為ELMo表徵(Embeddings from Language Models)。不同於之前的語境化的詞向量學習方法(Peters等人,2017;McCann等人,2017),ELMo表徵是深層的,從某種意義上說,它們是biLM所有內部層的函數。更具體地說,我們學習了每個終端任務的輸入單詞上的向量的線性組合,這比僅使用頂層LSTM顯著地提高了性能。

以這種方式組合內部狀態允許非常豐富的詞表徵。使用內部任務評價(intrinsic evaluations),我們表明,較高級別的LSTM狀態捕獲詞義的上下文相關方面(如,它們可以在不修改的情況下使用,以在監督詞義消歧任務上表現良好),而較低級別LSTM狀態為語法的各方面建模(如,它們可以用作詞性標註)。同時暴露所有信號是非常有益的,允許學習模型選擇半監督類型,它對每個終端任務都是最有用的。

大量實驗表明,ELMo表徵在實踐中非常有效。我們首先表明,它們可以很容易地添加到現有模型中,以解決六個不同的且具有挑戰性的語言理解問題,包括文本蘊涵、問答、情感分析。僅添加ELMo表徵就可以顯著地改善每種情況下的最新技術水平,包括高達20%的相對誤差減少。對於可直接比較的任務,ELMo優於CoVe(McCann等人,2017),它使用神經機器翻譯編碼器來計算語境化表徵。最後,ELMo和CoVe的對比分析表明,深層表徵優於僅從LSTM頂層派生的表徵。我們的訓練模型和源代碼是開源的,我們希望ELMo為其他NLP任務提供類似的收益。

2 相關工作

由於能夠從大規模未標記文本中捕獲單詞的句法和語義信息,預訓練的詞向量(Turian等人,2010;Mikolov等人,2013;Pennington等人,2014)是大多數最先進NLP架構的標準組件,包括問答(Liu等人,2017)、文本蘊涵(Chen等人,2017)和語義角色標註(He等人,2017)。然而,這些學習詞向量的方法只允許對每個單詞進行上下文無關的表徵。

先前提出的方法克服了傳統詞向量的一些缺點,要麼使用子詞信息(subword information)來豐富傳統詞向量(如Wieting等人,2016;Bojanowski等人,2017),要麼為每個詞義學習單獨的向量(Neelakantan等人,2014)。我們的方法通過使用字符卷積從子詞單元(subword units)中受益,並且我們將多義信息無縫地合併到下游任務中,而無需明確地訓練以預測預定義的含義類。

其他的近期工作也聚焦在學習語境化的表徵。context2vec(Melamud等人,2016)使用雙向LSTM(Hochreiter和Schmidhuber,1997)圍繞一箇中樞詞對上下文編碼。其他的語境化嵌入學習方法在表徵中包括中樞詞本身,並且使用有監督的神經機器翻譯(MT)系統(CoVe;McCann等人,2017)或無監督語言模型(Peters等人,2017)的編碼器來計算表徵。這兩種方法都得益於大數據集,儘管機器翻譯方法受限於並行語料庫大小。在本文中,我們充分利用獲得豐富的單語數據的優勢,在一個大約有3000萬句話的語料庫上訓練我們的biLM。我們還將這些方法推廣到深層語境化表徵中,我們展示了這些方法在各類各樣的NLP任務中都能很好地工作。

以前的研究也表明,深層biRNN的不同層編碼不同類型的信息。例如,在深層LSTM的較低層次引入多任務句法監督(如詞性標註),可以提高較高層次任務的總體性能,例如,依存分析(Hashimoto等人,2017)或CCG超級標註(Søgaard和Goldberg, 2016)。在基於RNN的編碼器-解碼器機器翻譯系統中,Belinkov等人(2017)表明,在2層LSTM編碼器第一層學習到的表徵比第二層更擅長預測詞性標註。最後,用於編碼詞上下文的LSTM頂層已經被證明可以學習詞義表徵。我們表明,基於ELMo表徵修改的語言模型目標也會產生類似信號,並且對混合這些不同類型半監督的下游任務的學習模型是非常有益的。

Dai和Le(2015)以及Radachandran等人(2017)使用語言模型和序列自動編碼器預訓練編碼器-解碼器對,然後根據特定任務有監督微調。相比之下,在使用未標記數據預訓練之後,我們固定了權重並添加額外的特定任務的模型容量,從而使我們能夠利用大型、豐富和通用的biLM表徵,以應對下游訓練數據量要求較小的有監督模型的情況。

3 ELMo

不同於最廣泛使用的詞表徵(Pennington等人,2014),ELMo詞表徵是整個輸入語句的函數,如本節所述。它們是通過字符卷積在兩層biLM上計算的得來的(見3.1節),作為內部網絡狀態的線性函數(見3.2節)。此設置允許我們進行半監督學習,其中,biLM是在一個大規模語料庫上預訓練而來(見3.4節),並且很容易融入到各種現有的神經NLP架構中(見3.3節)。

3.1 雙向語言模型

給定一個包含N個符號的序列(t_1,t_2,...,t_N),一個前向語言模型,通過給定歷史(t_1,t_2,...,t_k-1),對符號t_k的概率建模,從而計算序列的概率:

ELMo深層語境化的詞表徵

。最近最先進的神經語言模型(J'Ozefowicz等人,2016;Melis等人,2017;Merity等人,2017)計算上下文無關的符號表徵x_LM_k(通過符號嵌入或者字符CNN),然後,沿著前向LSTM的L層通過。在每個位置k,每個LSTM層輸出一個上下文相關的表徵h_LM_k,j(向右),其中,j=1,2,...,L。LSTM頂層輸出h_LM_k,L(向右)通過softmax層來預測下一個符號t_k+1。

反向LM類似於前向LM,但它在序列反向上運行,根據未來上下文來預測前一個符號

ELMo深層語境化的詞表徵

。它可以以類似於前向LM方式來實現,在一個L層的深層模型中,給定(t_k+1,...,t_N),每個反向LSTM層j生成t_k表徵h_LM_kj(向左)。

biLM組合了前向和反向LM。我們的公式聯合最大化前向和反向LM的對數似然:

ELMo深層語境化的詞表徵

。我們將前向和反向LM的符號表徵參數(Θ_x)和softmax層參數(Θ_s)綁定在一起,同時,在每個方向上,為LSTM維護單獨的參數。總的來說,該公式類似於Peters等人(2017)的方法,區別是,我們在雙向上共享一些權重,而不是完全獨立的參數。在下一節中,我們摒棄以前的工作,通過引入一種新方法來學習詞表徵,它是biLM層的線性組合。

3.2 ELMo

ELMo是biLM的中間層表徵的特定任務組合。對於每一個符號t_k,一個L層的biLM計算一個2L+1個表徵的集合

ELMo深層語境化的詞表徵

,其中,h_LM_k,0是符號層,並且對每個biLSTM層,h_LM_k,j=[h_LM_k,j(向右), h_LM_k,j(向左)]。

為了納入下游模型,ELMo將R中所有層摺疊進一個向量

ELMo深層語境化的詞表徵

。在最簡單的情況下,ELMo僅選擇頂層,E(R_k) = h_LM_k,L,如TagLM(Peters等人,2017)和Cove(Mc Cann等人,2017)。一般來說,我們計算biLM所有層的特定任務權重:

ELMo深層語境化的詞表徵

。在(1)中,s_task是softmax歸一化權重,並且標量參數r_task允許任務模型縮放整個ELMo向量r。對於優化過程具有實際意義(詳見附錄)。考慮到biLM的每一層的激活函數有不同分佈,在某些情況下,它也有助於在加權前對每一個biLM層應用歸一化(Ba等人,2016)。

3.3 使用biLM執行監督NLP任務

針對目標NLP任務,給出了一個預訓練的biLM和一個監督架構,利用biLM優化任務模型是一個簡單的過程。我們簡單地運行biLM,並且為每個單詞記錄所有的層表徵。然後,我們讓終端任務模型學習這些表徵的線性組合,如下所述。

首先考慮沒有biLM的監督模型的最低層。大多數監督NLP模型在最低層共享一個通用的架構,允許我們以一致且統一的方式添加ELMo。給定符號序列(t1,...,tN),對於每個符號位置,使用預訓練的詞表徵和任意的字符表徵,形成一個上下文無關的符號表徵x_k,它是標準的。然後,通常地,模型使用雙向RNN、CNN、或前饋網絡形成一個上下文相關的表徵h_k。

為了將ELMo添加到監督模型中,我們首先凍結biLM的權重,並且把ELMo向量ELMo_task_k和x_k連接起來,並且將ELMo增強表徵[x_k, ELMo_task_k]傳遞到任務RNN中。對於某些任務(如SNLI、Squad),我們通過兩種方式進一步改進:一是通過引入另一組輸出特定線性權重,在任務RNN的輸出中包含ELMo;二是將h_k替換為[h_k, ELMo_task_k]。由於監督模型剩餘部分保持不變,這些添加可能發生在更復雜的神經網絡模型的上下文中。例如,請參見第4節中的SNLI實驗或者共指消解實驗,前者在biLSTM的後面跟著一個雙注意力層(bi-attention layer),後者將聚類模型分層到biLSTM上。

最後,我們發現,向ELMo中添加適量的丟棄(dropout)是有益的(Srivastava等人,2014),在某些情況下,通過向損失中添加r||w||_2_2來調整ELMo權重也是有益的。這給ELMo權重施加了一個歸納偏置,以接近所有biLM層的平均值。

3.4 預訓練的雙向語言模型架構

本文預訓練的biLM與J'Ozefowicz等人(2016)和Kim等人(2015)的架構相似。但是進行了修改,以支持雙向聯合訓練,但在LSTM層間增加了殘差連接。在這項工作中,我們關注大規模biLM,如Peters等人(2017)強調了使用biLM的重要性,而非僅前向LM和大規模訓練。

為了平衡整個語言模型的困惑度和模型的大小以及下游任務計算需求,同時,保持一個純基於字符的輸入表徵,我們將J´ozefowicz等人(2016)的單一最佳模型CNN-BIG-LSTM的所有嵌入和隱藏維度減半。最終模型使用L=2層biLSTM,其中有4096個單元和512個維度投影,以及一個從第一層到第二層的殘差連接。上下文不敏感類型表徵使用2048個字符n-gram卷積過濾器,後面是兩個高速路層(Srivastava等人,2015),以及一個向下的512表徵的線性投影。因此,biLM為每個輸入符號提供三層表徵,包括由於純字符輸入而在訓練集之外的那些表徵。相比之下,傳統詞嵌入方法只為詞彙表中符號提供一層表徵。

在1B Word Benchmark(Chelba等人,2014)上經過10個epoch訓練後,前向和反向困惑度平均值是39.7,而前向CNN-BIG-LSTM的困惑度是30.0。一般來說,我們發現前向和反向困惑度近似相等,反向的值略低。

一旦經過預訓練,biLM可以計算任務的表徵。在某些情況下,在特定於域的數據上微調biLM會導致困惑度顯著下降,並且增加下游任務的性能。這可以看做是一種領域遷移。因此,在大多數情況下,我們在下游任務中使用一個微調的biLM。詳見附錄。

4 評估

表1顯示了ELMo在六個基準NLP任務的不同集合中的性能。在所考慮的每一項任務中,僅添加ELMo就可以建立一個新的最先進的結果,與強基模型相比,相對誤差減少了6-20%。這是不同的集合模型架構和語言理解任務的一個非常普遍的結果。在本節的剩餘部分,我們提供了各個任務結果的高級草圖,有關完整的實驗細節,詳見附錄。

問答 斯坦福大學的問答數據集SQuAD(Rajpurkar等人,2016)包含100K+個眾包問答對(crowd sourced question-answer pairs),其中答案是給定維基百科段落的一個跨度(span)。我們的基線模型(Clark和Gardner,2017)是Seo等人的雙向注意力流模型(Bidirectional Attention Flow model)的改進版本。它在雙向注意力組件之後增加了一個自我注意力層,簡化了一些池化操作,並將LSTM代替GRU(Cho等人,2014)。在基線模型中加入ELMo後,測試集F_1的性能從81.1%提高到85.8%,提高了4.7%,相對誤差降低了24.9%,整個單一模型的最新狀態提高了1.4%。11個成員的合奏將F_1的性能提高到了87.4%,這是提交排行榜時的最新水平。ELMo的4.7%的增長率也明顯高於將CoVe添加到基線模型的1.8%的增長率(McCann等人,2017)。

文本蘊涵 文本蘊涵是一類任務,它根據給定的一個前提,判斷一個假設是否為真。斯坦福大學自然語言推理(SNLI)語料庫 (Bowman等人, 2015)提供了大約550K個假設/前提對。我們的基線是來自Chen等人 (2017)的ESIM序列模型,它使用biLSTM來編碼前提和假設,後面跟著一個矩陣注意力層、一個局部推理層、另一個biLSTM推理組合層、以及輸出層之前的一個池化操作。總的來說,將ELMo添加到ESIM模型中,在五個隨機種子上,將平均準確率提高了0.7%。5個成員的合奏將整體準確率提高了89.3%,超過先前的合奏的88.9%的最佳準確率(Gong等人,2018)。

語義角色標註 語義角色標註(SRL)系統對句子的謂詞-論元建模,這通常被描述為回答"誰對誰做了什麼"。He等人(2017)將SRL建模為BIO標註問題,並使用一個正反向交叉的8層深層biLSTM,緊跟Zhou和Xu (2015)。如表1所示,當把ELMo 添加到He等人(2017)提出的單一模型的重新實現中,測試集F_1的性能從81.4%提升到84.6%,提升了3.2%,在OntoNotes基線上取得了新的最新水平(Pradhan等人,2013),並將之前的最佳合奏結果提升了1.2%。

ELMo深層語境化的詞表徵

共指消解 共指消解是文本中提到的聚類分析任務,指的是同一個潛在的現實世界實體。我們的基線模型是Lee等人 (2017)的端到端跨度(span)的神經模型。它首先使用biLSTM和注意力機制計算跨度(span)表徵,然後應用一個softmax排序模型,以發現共指鏈。在我們的實驗中,使用來自CoNLL 2012共享任務(Pradhan等人,2012)的OntoNotes共指註解,添加ELMo可以將F_1的平均性能從 67.2%提升到70.4%,提高了3.2%,建立了一個最新的最優水平,再次在F_1上將以前的最佳合奏結果的性能提高了1.6%。

命名實體抽取 CoNLL 2003 NER任務(Sang和Meulder,2003)由路透社RCV1 語料庫的新聞專線組成,該語料庫標記有四種不同實體類型(PER, LOC, ORG, MISC)。根據最新最先進的系統(Lample等人,2016;Peters等人,2017),基線模型使用預訓練詞嵌入,一個字符CNN表徵,兩個biLSTM層,以及一個隨機條件場(CRF)損失(Lafferty等人,2001),類似於Collobert等人的模型(2011)。如表1所示,我們的ELMo增強biLSTM-CRF在F_1上取得了5次平均92.22%的性能。我們的系統與Peters等人(2017)先前的最新技術的系統之間的關鍵區別是,我們允許任務模型學習所有biLM層的加權平均值,然而Peters等人(2017)僅使用biLM的頂層。如5.1節所示,使用所有層而不是最後一層可以提高跨多個任務的性能。

情感分析 斯坦福情感Treebank(SST-5;Socher等人,2013)中細粒度情感分類任務,涉及從五個標籤中選擇一個(從非常消極到非常積極)來描述電影評論的一個句子。這些語句中包含了各種語言現象(如習語)和複雜的句法結構(如難以學習的否定)。我們的基線模型是來自McCann等人(2017)的雙注意力分類網絡(BCN),它增加CoVe嵌入,保持了先前的最先進的結果。在BCN模型中,將CoVe替換為ELMo,可使絕對準確率比現有的最先進水平提高了1.0%。

5 分析

本節提供了剝離分析,以驗證我們的主要觀點,並闡明ELMo表徵的一些有趣方面。5.1節表明,在下游任務中使用深層語境化表徵,與僅使用頂層的先前工作相比,無論是biLM或MT編碼器生成,都可以提高性能,而且ELMo表徵提供了最佳整體性能。5.3節探討了不同類型的從biLM中捕獲的語境化信息,並且使用兩個內部任務評價來表明,較低層更好地表徵語法信息,較高層較好地捕獲語義信息,與MT編碼器一致。它還表明,我們的biLM始終提供比CoVe更豐富的表徵。此外,我們分析了敏感性因素,例如,ELMo在任務模型中所處的位置(5.2節)、訓練集大小(5.4節)、可視化ELMo學習的任務權重(5.5節)。

5.1 交替分層加權方案

為了組合biLM層,等式1有許多備選方案。以前的語境化表徵工作僅使用最後一層,無論是來自biLM(Peters等人,2017)或MT編碼器(Cove;McCann等人,2017)。正則化參數r的選擇也很重要,因為較大的值(例如r=1)有效地將加權函數減少到各層簡單平均值,而較小的值(例如r=0.001)允許各層權重發生變化。

表2比較了SQuAD, SNLI和SRL這些備選方案。包含所有層的表徵比僅使用最後一層的表徵提高了整體性能,並且最後一層的語境化表徵比基線提高了性能。例如,對於SQuAD,僅使用最後一個biLM層,在F_1上,比基線性能提高了3.9%。平均所有biLM 層而不是僅使用最後一層又將F_1的性能提高了0.3%(比較Last Only列和r=1列),並且允許任務模型學習單層權重又將F_1的性能提高了0.2%(比較r=1列和r=0.001列)。在大多數情況下,ELMo優先使用較小的r值,但NER(一個訓練集較小的任務)對r不敏感(未顯示)。

ELMo深層語境化的詞表徵

總體趨勢與CoVe相似,但基線增長較小。對於SNLI,使用r=1平均所有層,比僅使用最後一層,將準確率從88.2%提升到88.7%。與僅使用最後一層相比,使用r=1的情況下,SRL F_1的性能增加了0.1%,直到82.2%。

5.2 ELMo位置

本文中所有的任務架構只包含詞嵌入作為biRNN的最低層輸入。但是,我們發現,在特定任務架構中,將ELMo 作為biRNN 的輸出層,可以提升一些任務的總體結果。如表3所示,對於SNLI和SQuAD而言,在輸入層和輸出層都包含ELMo,比僅在輸入層包含ELMo,性能有改進,而對於SRL而言,性能最高。對此結果的一個可能解釋是,SNLI和SQuAD架構在biRNN層後使用注意力層,所以在此層引入ELMo,允許模型直接關注biLM的內部表徵。在SRL案例中,特定任務的上下文表徵比來自biLM的表徵更重要。

ELMo深層語境化的詞表徵

5.3 biLM表徵捕獲的信息

由於添加ELMo比單獨使用詞向量提高了性能,因此biLM的語境化表徵必須對NLP任務的有用信息進行編碼,而詞向量未捕獲這些信息。直覺上,biLM通過上下文消除單詞的歧義,想想"play",就是一個多義詞。表4的頂部列出了使用GloVe向量的"play"的最相近的語義。它們有好幾種詞性(例如played和playing作為動詞,player和game作為名詞),但是集中在與"play"運動相關感官。相反,下面兩行顯示了SemCor數據集上最鄰近的語句(見下文),使用源語句中"play"的biLM上下文表徵。在這種情況下,biLM能夠消除源語句的詞性和詞義的歧義。

ELMo深層語境化的詞表徵

這些觀察結果可以用類似Belinkov等人 (2017) 的語境化表徵的內部任務評價來量化。為了隔離由biLM編碼的信息,這些表徵直接用於預測細粒度的詞義消歧任務 (WSD) 和詞性標註任務。使用這種方法,還可以和CoVe比較,以及每個單獨的層。

詞義消歧 對於一個句子,我們可以使用biLM表徵預測目標詞的含義,使用一個類似Melamud等人 (2016)的1-最鄰近方法。為此,首先我們使用biLM計算我們的訓練集Sem-Cor 3.0(Miller等人, 1994)中所有層表徵,然後取每個詞義表徵的平均值。在測試時,我們再次使用biLM目標詞的表徵,並且從訓練集中取最鄰近的語義,從WordNet返回到訓練中未觀察到的引理的第一感覺。

表格5在Raganato等人(2017a)的四個測試集的同一套測試組件中,使用Raganato等人(2017b)的評估框架比較了WSD結果。總的來說,biLM頂層表徵的F_1為69.0,並且在WSD上優於第一層。這與使用手工設計特徵(Iacobacci等人,2016)的最先進的特定WSD的監督模型有競爭力,並且是一個使用輔助粗粒度語義標註和詞性標註(Raganato等人,2017a)訓練的特定任務biLSTM。CoVe biLSTM層遵循與biLM層類似的模式(與第一層相比,第二層的整體性能更高),但是,我們的biLM優於CoVe biLSTM,後者跟蹤第一感覺基線。

ELMo深層語境化的詞表徵

詞性標註 為了檢測biLM是否捕獲基本語法,我們使用語境化表徵作為線性分類器的輸入,該分類器預測Penn Treebank(PTB) (Marcus等人, 1993)的華爾街日報部分的詞性標註。由於線性分類器只增加少量模型容量,這是biLM表徵的直接測試。與WSD類似,biLM表徵與精調且任務相關的biLSTM相比具有競爭力(Ling等人,2015;Ma和Hovy,2016)。但是,與WSD不同,第一個biLM層的準確度高於頂層,這與多任務訓練 (Søgaard和Goldberg, 2016; Hashimoto等人, 2017)和MT (Belinkov等人, 2017)的深層biLSTM的結果是一致的。CoVe的詞性標註的準確度與biLM類似,並且跟WSD一樣,biLM比CoVe編碼器取得更高準確度。

ELMo深層語境化的詞表徵

監督任務影響 總之,這些實驗證實了biLM中不同層代表了不同類型信息,並解釋了為什麼包含所有biLM層對下游任務最高性能是重要的。另外,相比CoVe,biLM表徵更易遷移到WSD和詞性標註任務中,這有助於說明為什麼在下游任務中ELMo優於CoVe。

5.4 樣本效率

將ELMo添加到模型中,可以顯著地提高樣本效率,包括獲取最佳性能的參數更新次數,以及整個訓練集大小。例如,未使用ELMo時,SRL模型在486個epoch訓練後達到最大F_1,使用ELMo後,模型在10個epoch就超過基線最大值,為達到相同性能所需的更新次數相對下降了98%。此外,ELMo增強模型使用更小的訓練集,比未使用ELMo效率更高。圖1比較了訓練全集百分比從0.1%到100%時,有無ELMo時基線模型的性能。ELMo 的改進對較小數據集來說是最大的,並且顯著地減少了達到給定性能水平的訓練集數量。在SRL情況下,ELMo模型使用1%的訓練集數據,與基線模型使用10%的訓練集數據,取得相同的F_1值。

ELMo深層語境化的詞表徵

5.5 可視化學習權重

圖2顯示了softmax歸一化學習的層權重。在輸入層,任務模型傾向於biLSTM首層。對於共指(coreference)和SQuAD,這是最受歡迎的,但是對其他任務來說,分佈的峰值要小一些。輸出層權重相對均衡,對較低層有輕微的偏好。

ELMo深層語境化的詞表徵

6 總結

我們介紹了一種通用方法,從biLM中學習高質量的深層的上下文相關的表徵,並且當將ELMo應用到廣泛的NLP任務時顯示很大的改善。通過剝離實驗(ablations)和其他可控實驗,我們也證實了,biLM有效地編碼了上下文單詞的不同類型的語法和語義信息,並且使用所有層提高了整個任務的性能。

參考

見原文

附錄

見原文


分享到:


相關文章: