NLP中各種各樣的編碼器

2021-04-07 16:04:46 佚名

作者：Pratik Bhavsar

編譯：ronghuaiyang

導讀

掌握文本數據的特徵工程。

對文本進行編碼理解語言的核心。如果我們知道如何用小向量表示單詞、句子和段落，那麼我們所有的問題都解決了！

在壓縮向量中使用一個泛化模型來對文本進行語義表示是NLP的終極目標

對文本進行編碼是什麼意思？

當我們將一個可變長度的文本編碼成一個固定長度的向量時，我們實際上是在做特徵工程。如果我們使用語言模型或嵌入模塊，我們也在進行降維。

正如我在之前的一篇關於遷移學習的文章中所討論的，有兩種建模方法 — 微調和特徵提取。在這篇文章中，我將討論用深度學習來編碼文本(特徵提取)的各種方法，這些方法可以用於後續的任務。你可以在這篇文章中看到特徵提取方法的優點。

假設你有這樣一句話：“我喜歡去海灘旅行。”你正在做一個分類項目。如果你的詞彙量很大，就很難訓練分類器。當你使用TF-IDF得到每個單詞的稀疏向量時，就會發生這種情況。

使用像GloVe這樣的嵌入工具，你可以得到一個密集的100維的向量。但是像GloVe這樣的模型的問題是它不能處理OOV(詞彙表之外的)單詞，也不能處理一詞多義 —— 根據上下文，一個單詞有很多可能的含義。

因此，最好的方法是使用像ELMo這樣的模型或使用USE(通用語句編碼器)來編碼單詞。這些模型在字符級別上工作，可以處理多義現象。這意味著它們可以處理沒有見過的單詞，而我們得到的每個單詞/句子的向量將封裝其含義。

一旦我們有了單詞/句子的固定向量，我們就可以用它做任何事情。這就是特徵提取方法的內容。只創建一次特徵，然後執行任何下游任務。我們可以嘗試不同的分類模型並對它們進行微調。我們還可以創建語法探索或推薦引擎。

現在，真正的問題是對文本進行編碼有哪些不同的模型可用？是否存在一個適用於所有事情的模型，還是模型都是依賴於任務的？

下游和語法探索任務中對句子嵌入的評估

當我讀這篇文章的時候，它為我打開了潘多拉的盒子。理想情況下，我們需要一個嵌入模型，它能給我們最小的嵌入向量，並能很好地完成任務。嵌入尺寸越小，訓練和推理所需的計算量就越小。

正如你所看到的，嵌入的尺寸會有很大的變化 —— 從300到4800不等。作為基礎，向量尺寸越大，它可以包含更多的信息！但這是真的嗎？讓我們看看他們是如何執行任務的。

不同的嵌入模型及其向量尺寸

分類任務

作者嘗試瞭如下所示的不同分類任務來了解這些模型的性能。在語法探索任務中，MLP與50個神經元組成的單一隱含層一起使用，沒有添加dropout，使用批量大小為64的Adam optimizer。

(對於單詞上下文(WC)探測任務，其中使用了邏輯迴歸，因為它始終提供更好的結果)

分類任務

從結果中我們可以看到，不同的

ELMo嵌入對於分類任務執行得非常好。USE和InferSent也在一些任務的頂部。最好和次好之間的差距大約是2%。Word2Vec和GloVe並沒有像預期那樣在任何任務中名列前茅，但它們的表現也在3%範圍內。

需要注意的是，ELMo的向量大小為1024，USE為512，InferSent為4096。所以如果有人要把一個系統投入生產，他的第一選擇是USE，然後可能是ELMo。

分類任務的結果

語義相關的任務

然後他們嘗試了使用嵌入來處理語義關聯和文本相似性的任務。這次使用(Transformer)模型顯然是贏家。如果我們忽略了InferSent，它的嵌入比USE大8倍，USE遠遠領先於其他。

這為語義探索和相似問題類任務上提供了明確的選擇。

順便問一下，我們什麼時候使用USE(DAN)和USE(Transformer)？USE(DAN)的性能是O(n)，USE(Transformer)是O (n²)，n是文本長度。所以，如果你正在處理長文本，你可能想要USE(DAN)。

語法探索任務

接下來，他們展示了由一些深奧任務組成的語法探索任務的結果。在這種情況下，ELMo似乎統治了世界！

BShift (bi-gram shift)任務 — 目標是識別句子中的兩個連續的tokens是否被倒轉了，比如“This is my Eve Christmas”

ELMo和非ELMo模型之間的差異非常大。

信息檢索任務

在圖像標題檢索任務中，每個圖像和語言特徵都要進行聯合評估，其目標是對給定標題的圖像集合進行排序(圖像檢索任務 — text2image)或對給定圖像的標題進行排序(標題檢索 — image2text)。InferSent是一個明顯的贏家。第二名是ELMo。

哪裡都有ELMo

通用句子編碼

正如我們所看到的，USE是一個很好的生產級模型，我們來討論一下。我不會談論ELMo，因為已經有很多關於它的文章了。

有兩種類型可供使用

Transformer
DAN(Deep Averaging Network)

編碼器採用小寫的PTB tokens字符串作為輸入，輸出512維向量作為句子嵌入。這兩種編碼模型都被設計成儘可能通用的。這是通過使用多任務學習來實現的，其中一個編碼模型用於滿足多個下游任務。

USE(Transformer)

這使用了transformer架構，它為每個token創建上下文感知的表示。語句嵌入是通過添加所有tokens的元素創建的。

USE(DAN)

這是一個有爭議的建模方法，因為它不考慮單詞的順序。首先將GloVe嵌入的詞在一起做平均，然後通過前饋深度神經網絡產生句子嵌入。

該模型利用深度網絡來放大詞嵌入中的細微差別，這些差別可能來自一個詞，比如good/bad。大多數時候它表現得很好，但是實驗表明它在雙重否定下失敗了，比如“not bad”，因為這個模型把“not”和消極情緒聯繫在一起。看一下最後一個例子。

雙重否定下失敗了

這使得(DAN)成為一個將新聞文章分類的好模型，但是在情感分類問題中，像“not”這樣的詞可能會改變意思。

你可以從上下文中學到些什麼？

像DAN這樣的模型和transformer一樣好，這一事實提出了一個問題 —— 我們的模型是否關心詞的順序，並且順序是否像我們認為的那樣重要？

讓我們討論一下我們從上下文中學到了什麼？在本文中，作者試圖瞭解這些上下文表示在哪些方面優於傳統的詞嵌入。

用來驗證的任務

作者介紹了一套“邊緣探測”任務，用於探測上下文化的詞嵌入的子句結構。這些任務來源於核心的NLP任務，包含了一系列的語法和語義現象。

他們使用這些任務來探索上下文嵌入如何改進他們的詞(上下文無關)基線。他們主要關注上下文化的單詞嵌入的四個最新方法 —CoVe, ELMo, OpenAI GPT, 和BERT。

ELMo、CoVe和GPT都遵循類似的趨勢(表2)，顯示出在被認為主要是語法上的任務(如依賴性和成分標記)上獲得的收益最大，而在被認為需要更多語義推理的任務(如SPR和Winograd)上獲得的收益較小。

句子中有多少信息是通過長距離傳送的(幾個tokens或更多)?

為了估計長距離傳輸的信息(幾個tokens或多個tokens)，作者使用卷積層擴展了詞法基線，允許探測分類器使用本地上下文。如圖2所示，添加寬度為3(±1 token)的CNN，可以縮小詞法基線與完整ELMo之間的差距72%(平均任務)，如果我們使用寬度為5(±2 tokens)的CNN，則可以擴展到79%。

這表明，雖然ELMo沒有有效地對這些現象進行編碼，但它所帶來的改進主要是由於長距離的信息。

CNN模型和標準正交編碼器在鄰近跨距時表現最佳，但隨著tokens距離的增加，其性能迅速下降。(該模型只能訪問給定範圍內的嵌入，如謂詞 — 對，並且必須預測屬性，如語義角色，這通常需要整個句子的上下文。)

完整的ELMo模型表現得更好，在d=0和d=8之間，性能只下降了7個F1點，這表明預訓練的編碼器確實對USE的遠程依賴進行了編碼。

論文中的發現

首先，總的來說，與語義任務(例如，共同參考)相比，上下文化嵌入在語法任務(例如，成分標註)方面比非上下文化嵌入在語義任務(例如，指代關係)方面有很大的改進，這表明這些嵌入在語法編碼方面比高級語義做得更好。

其次，ELMo的性能不能完全由一個訪問本地上下文的模型來解釋，這表明上下文化的表示確實編碼了遠距離的語言信息，這有助於消除長範圍依賴關係和高級語法結構的歧義。

這是一個簡單卻難以克服的句子嵌入基線

既然我們知道上下文模型是可以打敗的，那麼有什麼簡單的技巧可以打敗它呢？

如果DAN證明平均詞嵌入就可以得到很好的結果，如果我們可以找到一個智能的權重方案呢！本文介紹瞭如何將句子表示為加權平均，然後使用PCA/SVD進一步細化嵌入。

他們是這樣寫的：

“我們修改了這個理論模型，出於經驗觀察，大多數詞嵌入方法，因為他們使用向量內積試圖捕捉詞的同現概率，最後給頻繁的單詞大的向量，並給了不必要的單詞對大的內積，這樣只是為了擬合偶爾出現在文檔中的斷章取義的話。

這些異常導致詞向量的平均值在沿著語義上無意義的方向上有巨大的分量。我們對(Arora et al.， 2016)的生成模型進行了修改，使用“平滑”術語，然後通過最大似然計算得到SIF的權重調整。

其中，以a為參數，**w = a/(a + p(w))**的權重，p(w)(估計值)的詞頻，他們稱之為 — 平滑逆頻率(SIF)。

利用這些權重，他們計算加權平均值，然後去掉平均向量對第一個奇異向量的投影(“共同分量去除”)。

論文中有趣的一句話 — “簡單的RNNs可以被看作是解析樹被簡單的線性鏈所取代的特殊情況。”

SIF權值調整

這是計算SIF嵌入的方法：

計算語料庫中所有單詞的頻率。
然後，給定一個超參數a，通常設置為1e-3，和一組預先訓練的
詞嵌入，在每個文本/句子上計算加權平均值。
最後，使用SVD從這些平均值中刪除第一個分量，並獲得新的語句嵌入。刪除第一個分量就像刪除了最常見的信息，因為它捕獲了關於平均嵌入的最大信息。

我的理解是，刪除第一個分量就像從壓縮向量中刪除“均值”！我們剩下的是有關這個詞的獨特特徵而不是完整的信息

結果是驚人的，他們擊敗了複雜的方法，如DAN和LSTM。

下面是相同的結果。

他們的貢獻

對於GloVe向量，單獨使用平滑逆頻率加權比未加權平均提高約5%，單獨使用共分量去除提高10%，同時使用兩者提高13%。

Sentence-BERT: 使用Siamese BERT-Networks的句子嵌入

最先進的是什麼？

在這篇文章中，作者報告說我們正在做語義搜索，在10,000個句子中找到最相似的對需要BERT進行大約5000萬個推理計算(約65小時)。BERT的構造使得它既不適合語義相似度搜索，也不適合非監督任務，比如聚類。

在一個包含n = 10,000個句子的集合中，找到與BERT n·(n−1)/2 = 49,995,000個推理計算相似度最高的一對句子。

Sentence-BERT (SBERT)是預訓練的BERT網絡的一個修改，它使用siamese和triplet網絡結構派生出語義上有意義的句子嵌入，可以使用餘弦相似度進行比較。

這減少了尋找最相似的配對的努力，從使用BERT / RoBERTa的65小時減少到使用SBERT的5秒，同時保持了BERT的準確性。

This reduces the effort for finding the most similar pair from 65 hours with BERT / RoBERTa to about 5 seconds with SBERT, while maintaining the accuracy from BERT.

主要思想

與其在模型中運行所有的A-B對並得到一個分數，不如訓練一個模型來對相似的句子生成相似的嵌入。使用這種方法，一旦為適當的任務訓練了一個模型，我們就可以為每個句子創建一次嵌入。
每次我們得到一個查詢，我們使用餘弦距離計算查詢與所有其他預計算的句子嵌入的相似度，這是線性時間，使用比如FAISS之類的庫可以計算的很快。

為了做出好的編碼器，他們訓練了一個有固定權重的雙編碼器 — 一個siamese network！

結果達到了一種新的state of the art，除了SICK-R之外，在某些數據集上獲得了相當大的收益。

詞向量集合的關係

這篇論文發表於2019年10月。本文研究了統計相關係數在詞向量集上的應用，作為計算語義文本相似度的一種方法。令人驚訝的是，USE顯示比BERT更高的統計相關性。

此外，與皮爾遜相關進行比較，向量的最大和最小池化要比均值池化效果好。

這是否意味著USE更適合語義搜索？

在STS任務上的均值皮爾遜係數

BERT, ELMo, USE and InferSent Sentence Encoders: 研究推薦論文的萬靈藥？

到目前為止，我們一直在比較傳統機器學習和深度學習。但如果我們能同時利用這兩者呢！

在大型語料庫中使用語句嵌入在生產推薦系統中似乎不太可行，因為需要在幾秒鐘或更少的時間內返回推薦。

作者報告說BM25查詢花費大約5毫秒來檢索多達100個結果。通過不同的模型計算嵌入和重排20、50和100個標題所花費的額外時間如下所示。USE (DAN)是最快的，重新排序20或50個標題需要0.02秒，重新排序100個標題需要0.03秒。

你可以看到USE(DAN)超級快！

重排時間以毫秒計算

最後，BERT和SciBERT使用BERT-as-server是重排序100個標題最慢的，大約需要4.0秒。這意味著它們不能用於實時重排序推薦，除非提供更高的計算資源(如GPU或TPU)。

最佳的方法

使用Apache Lucene的BM25檢索前得到20、50或100個推薦候選項的列表。
獲取top-k的句子嵌入，使用查詢嵌入計算餘弦相似度評分。
將標準化後的BM25的初始得分與句子嵌入的語義相似度得分進行線性組合，將得分相加(將統一的權重設置為0.5)，生成最終的排序推薦。

總結

我寫這篇文章的主要原因是為了闡明如何為我們的問題選擇一個現有的模型。我們有各種各樣的模型、方法和任務。毫無疑問地選擇一個模型會導致過度工程化，而像USE(DAN)這樣的簡單模型可以解決這個問題。有時一個CNN可以解決ELMo的問題。

英文原文：
https://medium.com/modern-nlp/on-variety-of-encoding-text-8b7623969d1e

分享到:

關鍵字: 多義句子編碼器

知識圖譜推理在工業上的6大落地應用

解決問題的利器——神奇的NLP“邏輯層次”理論

怎麼看待專家有3.8萬條的視頻搜索

藥物的從世人皆健的對聯變成了如今的會員禮促銷

微軟亞洲研究院副院長周明離職，將加入創新工場AI工程院

史無前例的大罷工？英航是忘記複製團隊賦能六步曲了嗎？

NLP極簡入門指南，助你通過面試，踏入NLP的大門

堪稱自然語言處理（NLP）的入門經典，也許被你擦肩而過了

認同騰訊文化的同學留意了，4月鵝廠招聘實習生，學歷不限

上海之江生物科技股份有限公司

「回顧」自然語言處理中的多任務學習

能力介紹之NLP自然語言處理技術

「NLP育兒系列」不能在製造問題的層次來解決問題

「NLP育兒系列」眼睛暴露你的內心戲

「NLP育兒系列」父母必學的溝通小技巧

「NLP育兒系列」呼吸模式與心靈狀態

社群營銷的本質：對客戶進行忠誠度的培育和互動

Serverless 實戰：如何結合 NLP 實現文本摘要和關鍵詞提取？

什麼是基於搜索的分析？

如何做一個會議紀要

做民宿這幾年我遇到的——形形色色的客人

BERT面向語言理解的深度雙向變換預訓練

對死亡的態度

鋼鐵俠AI管家賈維斯，體貼又無所不知，Siri與小愛同學還差多遠？

高盈國際吳超：金融科技如何為投資管理賦能

【NLP】從BERT到ALBERT

AI芯片市場2026年將破700億美元！邊緣計算複合年增長率超40%

提高意志力，原來很簡單，不信？你看！

理解世界這件事，你處於哪個層次？

達觀數據多款產品亮相上交會雲展，促進技術生態合作

傳銷3神經調節術（NLP)

女子放大話：今年雙十一買東西不花錢，瞭解實情後的網友：是真的

NLP技巧 | 如果工作不是你感興趣的，怎麼辦？

BERT適應業務遇難題？這是小米NLP的實戰探索

讀《語言學綱要》有感——NLP需要語言學

你為什麼賺不到錢？或許你應該看看這個

“雲問科技”完成過億元融資

人工智能與自然語言處理簡介：AI三大階段、NLP技術與應用

長江上游首屆花博會

NLP學院網：NLP——開發你的技巧——表象系統問卷

曾經少年 | 香儂科技何豪傑：專心才是創業者的基本品質

旦復旦兮！ACL 2020 復旦大學系列論文解讀開始了

人工智能未來會如何？記住以下5點就夠了

項目經理的修煉

項目經理的心態和自我定位

AI法律服務平臺法聰聰完成千萬級融資

險峰長青千萬元投資AI法律服務交易平臺月收入增長70%

神思電子：公司的自然語言理解團隊在參加螞蟻金服及百度大腦閱讀理解比賽中均獲得優異成績

【NLP】從靜態到動態，詞表徵近幾十年發展回顧

除了你其他人都挺努力的

潛逃壓力過大暴瘦40多斤，一涉黑A級通緝犯在河北投案自首

記者從河北省公安廳獲悉，日前公安部通緝的13名A級通緝犯中的2號通緝犯魯某某近日向河北邯鄲警方投案自首，這是公安部A級通緝令後又一通緝犯主動投案。

當我們在談 SaaS 的時候，在談什麼？

當我們在談SaaS 的時候，在談什麼？什麼是 SaaSSaaS 優缺點SaaS 銷售模式SaaS 產品指標SaaS 業務指標SaaS 收入計算一、什麼是 SaaS這個模式讓軟件變得和水電氣很相似，只需要每月繳納固定的費用即可享受服務。

合同詐騙的類型有哪些？企業無力償還借款是否構成合同詐騙罪？

現階段，隨著國家供給側結構性改革的不斷深入，人們在市場中的互易行為日益頻繁，合同在經濟活動發揮的作用也日漸凸顯。

5月西安招聘會時間安排來了！找工作的別錯過

乘車路線:西安市內乘坐12路、14路、14路區間、26路、215路、215路區間、216路、224路、229路、239路、31路、36路、321路、323路、521路、600路、603路、616路、701路、704路、709路、教育專線、K605路、K616路、遊6路、遊8路61

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

剛剛:剛剛工作的畢業生，一個月只有2000多，是不是太少了？根據你城市消費水平來看啊，還有你從事的工作，假如你在二三線城市做一份事業單位或者是編制類的工作，薪資水平是隨著你工作年限逐年增長的，而且在年終也有很多福利補貼待遇等等，算下來收入也是可觀的，再舉一個例:-畢業生 2000

全球鬧「美元荒」帶動穩定幣需求暴增！以太坊交易量創近兩年新高

基於以太坊區塊鏈的主要穩定幣包括：Tether、TrueUSD、GeminiDollar、Paxos Standard、Binance USD、USD Coin、Huobi USD和MakerDAO等。

“幫助當地居民解決用水難題”-今日頭條-手機光明網

晨曦初露，9歲的米格爾和弟弟妹妹們抱著水罐，穿過一片田野，到達安哥拉首都羅安達郊區的指定取水點。葛洲壩安哥拉有限公司市場部負責人劉世軒介紹說，公司每天派出送水車兩次，一次3車，將潔淨水從羅安達水廠直接運往指定取水點。

灌籃高手無水印壁紙，每一張都是回憶

那些年，我們追過的灌籃高手，你更喜歡誰呢？流川楓櫻木花道赤木剛憲宮城良田三井壽你喜歡哪個球員呢？歡迎評論區留言。

通遼藍天救援隊成功解救遼河公園水上被困群眾

2020年5月1日，通遼藍天救援隊假期例行在遼河公園水域進行安全巡邏任務，下午15時10分，巡邏隊員發現遼河水面有被困群眾向巡邏船隻求救，接到求救信號後，巡邏隊員緊急前往事故現場展開研判、救援準備工作。

5月6日·武漢要聞及抗擊肺炎快報

今天零時起高速公路恢復收費了，這些車輛還能免費5月6日零時起全國高速公路恢復收費在武漢北收費站ETC和人工車道全部可通行零時左右通過收費站的車輛並不多以大貨車為主有工作人員在一旁引導貨車進入高速收費站前要通過入口稱重檢測車道進入沒有超重超限便可順利通過現場沒有出現排隊的現象全省聯

肖副省長等省市領導到孝感市楚澴中學調研九年級復學暨疫情防控常態化工作

2020年4月29日下午，肖副省長等省市領導來到孝感市楚澴中學調研九年級復學暨疫情防控常態化工作，肖副省長等省市領導在學校領導陪同下，重點對校門口出入、保健室、教室、學生心理輔導室、洗手池等進行了非常細緻的檢查，對孝感市楚澴中學的復學和疫情防控工作給予充分的肯定。

相聲界的顏值擔當張雲雷稱號大揭祕

這個播放量就連師傅身為相聲演員的張雲雷卻有著堪比娛樂圈小鮮肉的顏值，一個相聲演員長成這樣，張雲雷不火誰能火。

美國百年薅羊毛攻略

當德國向法軍陣地傾洩400多萬發炮彈，揚言要讓凡爾登成為「碾碎法軍的絞肉機」時，遠在大西洋的美國人。

《全職高手》：一口氣刷了10集，對楊洋路轉粉了

近日，由楊洋、江疏影主演的劇版《全職高手》在騰訊視頻正式開播了，該劇改編自蝴蝶藍同名小說，先前還被改編成動畫版。

共同承擔責任！Rookie談BP問題：輸了是我們打得太臭

前言：IG這隻老牌戰隊在我們LPL賽區以來都擁有著非常高的人氣，特別是在2018年之後，他們幫助我們LPL賽區奪得了第一個寶貴的S賽世界冠軍，而IG戰隊的打法一直以來也是非常有觀賞性的。

LOL"中韓對抗賽"遭選手反對？Zoom直言不想打，Doinb的回答太真實

Doinb表示："可以的話我不想參加，首先這場比賽沒有任何意義，獲得勝利既不會有獎金也不會有榮譽，但萬一輸掉比賽FPX就會成為大家吐槽的焦點"。

李亞鵬攜李嫣出席慈善晚會，李嫣手上鑽戒搶鏡，1個動作獲誇讚！

大家都知道天后王菲和前夫李亞鵬他們育有一個女兒，名叫李嫣。於是李嫣因為偷偷的開了直播從而也導致了她被大家所發現，但李嫣的樂觀和開朗卻也讓李亞鵬放下心來，決定放飛女兒，讓她自由的去探索她想要的世界。

53歲郭富城再度升級當爸，方媛懷二胎，Chant要做姐姐了

天王郭富城近日參加活動，首度承認妻子方媛懷有二胎的消息。從去年2017年兩人結婚，低調的愛情讓媒體都捕捉不到邊際，天王嫂31歲兩人相差了20歲的愛戀，始終不少人不看好啊。

那些拼命的演員：王寶強喝了一大桶牛奶，孫儷吃10斤瓜子

演員在我們眼中一直都是光鮮亮麗、收入頗高的職業，並且現在有很多靠流量躋身一線，卻毫無演技以及實力的演員。

賈乃亮用上了“一米陽光”這個詞，他依然渴望擁有美麗的愛情！

曾經賈乃亮是“陽光”的代名詞，大家看到他都覺得很暖，只不過後來就不是了。今天早上，他發了一條微博“人生的美好就是每天醒來都能看到上帝賜予我的那一米陽光”，這句話當中，賈乃亮用到了“一米陽光”這個詞。

搞笑GIF開心一刻：我的老家農村，有妹子願意嫁給我嗎？

當一名理髮師也不容易這是一隻有航天夢想的老鼠寶寶！什麼？這麼貴！把我賣了得了。小朋友，你贏了，我甘拜下風！

為什麼只有edg賺錢？

電競行業作為一個新興產業，這幾年發展勢頭越來越好，IG戰隊，FPX戰隊先後奪得了s8-s9世界賽的冠軍，據俱樂部知情人士透露，除了國內的幾家豪門俱樂部之外，其他俱樂部基本都是虧錢在做的，當然EDG也是:-edg 賺錢:為什麼只有edg賺錢？

程瀟身材多好？雙腿劈叉才明白，這才是“腿精”

程瀟可謂是才女，她是中韓宇宙少女的成員之一，今年她只有20歲。不要看程瀟年紀比較小，但是她身材還是挺好的，身材也是典型S型曲線，魅力不小。

張柏芝承認三胎產子，否認小夥的老爸是孫東海，看來她選擇保密

張柏芝是許多80後90後心目中的女神，除了顏值高有演技外，她和謝霆鋒的婚姻和戀情也曾是吃瓜群眾津津樂道的事。

T1戰隊搶注Faker商標，“囊括多個領域產品，商業潛力媲美喬丹”

前言：目前各大賽區的春季賽都已經結束了，T1戰隊在重組之後再度拿下了lck賽區的冠軍，這讓很多的玩家非常意外，這也從側面反映出來了，核心選手和主教練的個人能力，同時faker的實力再度被玩家們認可，最近一段時間他也是一直在直播，很多的人都在詢問，今年李哥的目標是什麼？

雲頂之弈“最不平衡的版本”誕生，全員搶一費卡，運氣成吃雞關鍵

上線之後迅速引發了大量玩家的好評，就在最近，官方也是迎來了10.9版本，可是在目前的版本中再度出現了太多的畸形玩法了，應該是有史以來最不平衡的版本，因為一費卡的爆率大大提升，導致遊戲成為了三星的天下，全員搶一費卡，運氣成為吃雞的關鍵。

LPL春季賽"6宗最"：Uzi最遺憾，阿水最驚喜，V5最離譜

在本期節目中會評選出一位最美麗LPL女解說，其中瞳夕、Rita、餘霜等都在名單之中，最有趣的是管澤元居然也出現在了“女解說”名單中，全因餘霜一張P過的照片，論梗的話，管澤元第一，若是輪顏值，估計這也排不上名次。

雷佳音被問：跟佟麗婭拍那麼多親熱戲是啥感受？他的回答笑翻眾人

不過要是像唐嫣和羅晉那樣用公費談戀愛的故事不多，大多數還是和不是心愛的人拍得多，但要是遇上岳雲鵬和佟麗婭拍親熱戲的話，那個畫面或許大家想象不出來吧。

JDG成最“慘”冠軍戰隊？拿到LPL冠軍人氣依舊低迷，TES成贏家！

LPL賽區的春季賽結束也有一段時間了，作為冠軍戰隊JDG，並沒有因為拿到冠軍而出現“人氣”的高漲，依舊平平淡淡，熟悉LPL賽區的玩家都知道，在LPL賽區中，一直以來都是由RNG、IG、EDG三家從“遠古”時期就開始統治LPL賽區，期間也有OMG和LGD、WE幾個戰隊打破了這個規律

#戰疫必勝#“症和狀”都有了，我與新冠擦肩而過

學習結束，回到家後，在武大短暫學習的那段時光時常讓我懷念，並曾立下誓言，抽個暑假一定要帶著老婆孩子一起去“逛”武大。機會就這麼悄然而至！2019年第28屆世界腦力錦標賽全球總決賽的舉辦地就是武漢，比賽的日期是12月6日到8日，三天的時間。其實，我也沒有想到第一次參加這樣比賽的女兒

T1提議中韓友誼賽，但LPL隊伍都不想參加？理由其實很簡單

這不今天就有網友在論壇中聊起了這個話題，有網友表示“LPL隊伍其實都不想參加中韓友誼賽，LPL隊伍才剛結束春季賽，18天之後就要打夏季賽了，像IG可能會有人員變動FPX TES 應該也會利用這段時間來檢討分析，也許只有JDG 比較願意參加，doinb只是第一表態的選手，可能還有很

網友投稿：光山縣潑陂河鎮至白雀園鎮的X015縣道德兩座壞橋經過5個月的等待終於開修啦#光山 #信陽

網友投稿：光山縣潑陂河鎮至白雀園鎮的X015縣道德兩座壞橋經過5個月的等待終於開修啦#光山 #信陽，於2020年04月28日上線，由信陽本地聯盟上傳。西瓜視頻為您提供高清視頻，畫面清晰、播放流暢，看豐富、高質量視頻就上西瓜視頻。

2020最佳韓劇追起來~《愛的迫降》僅排名第二，TOP 1絕對實至名歸

TOP20 - 「優雅的家」這部由林秀香、李章宇、裴宗玉等人所主演的《優雅的家》，當時一播出就引起不少話題，雖然劇情有點浮誇，但卻莫名好看，而當時該劇還刷新了MBN電視臺的記錄呢~《優雅的家》主要講述一位擁有完美外貌和身材的MC集團獨生女毛碩熙，為了查明15年母親去世的真相，因此

搞笑GIF開心一刻：我正在睡覺，誰敢打擾我

我這暴脾氣，等你剝完我能吃五個你帶著你家貓去做演員吧！這貓太有前途了！這是我見過最牛的啦啦隊！自從有了弟弟，老大就和家務結緣了狼狗：要不是主人在，我非吃了你兩個小子！

備考消防的幾大錯覺，你有這個情況嗎？

講真，很多時候我們會把事情想當然，並因為這些錯覺而採取錯誤的舉動，一消備考是一場毅力和心智的戰鬥，大家難免會產生一些錯覺，從而影響自己的備考效率，甚至導致備考失敗。

“頂流”李敏鎬啞火，渣男出軌劇出圈，韓劇觀眾也長大了？

豆瓣開分8.3，漸漸跌到7.7分，熱門短評寫道：“同樣是金編，差距怎麼這麼大”、“看了四集節奏真的是一團糟，比起隔壁《夫妻的世界》真的差一大截”。

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

20000:網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？天貓旗艦店，或者淘寶旗艦店，或者京東旗艦店肯定包真，質量好，再說可以官方驗證啊，不能圖那十塊五塊的便宜，畢竟一個充電寶要用好久呢，一兩年沒問題的。:-羅馬仕馬仕毫安

應急科普丨“五一” 期間氣溫回升謹防森林火災隱患

隨著“五一”期間氣溫大幅回升全國大部分地區已經進入初夏在享受小長假春日美景的同時森林火險等級也隨之明顯提升新疆森林消防提示您春季氣溫回升快野外草木乾燥你的一個失當用火行為就有可能引發森林大火勿念蔥林繁似海一星燃盡只塵埃

搞笑GIF開心一刻：拍照啦，趕緊看鏡頭

弟弟：姐姐你能利索點嗎家裡有個熊孩子，說實話心很累同學感覺你好可伶，一個人跳舞多尷尬啊！看我病好了怎麼收拾你們！真的是以迅雷不及掩耳之勢啊。姑涼，你……掉毛啊！小姐姐你是想找男朋友嗎用這樣的方式，結局很意外此處注意安全！

工程發承包、工程造價條款，或迎來大調整

第二章建設規劃與設計第一節建設規劃第八條建設規劃的體系第九條建設規劃的編制與審批第十條建設規劃的內容第十一條建設規劃的實施與評估第二節城市設計第十二條城市設計的基本要求第十三條城市設計的編制和審批第十四條城市設計的實施和管理第三節建築設計第十五條建築設計的基

新增四省！關於2019年一級建造師考試證書、複核發佈公告

快來看看吧~青海關於恢復專業技術人員職業資格證書的發放、補辦工作的通知各位考生：隨著疫情防控進入常態化，青海省新冠疫情得到有效控制，專業技術人員職業資格證書的印製、發放工作正在逐步恢復，為方便廣大考生辦理證書業務，4月28日起青海省人力資源和社會保障服務中心一樓大廳65、66號辦

學霸也會復讀？朱廣權這個圈粉無數的國民段子手是如何煉成的！

“煙籠寒水月籠沙，不止東湖與櫻花，門前風景雨來佳，蓮藕魚糕玉露茶，鳳爪藕帶熱乾麵，米酒香菇小龍蝦，守住金蓮不自誇，趕緊下單買回家，買它買它就買它，熱乾麵和小龍蝦。”

幸福的人，總會忘記舊愛

幸福從來不可能是有個人幫你搞定所有的一切，而你只需要坐享其成。她喜歡喝銀耳蓮子羹而且必須是上好的銀耳，用小火慢慢燉到砧稠那一日，他去看她，她冷冷地從屋裡走出來，丟給他一本書.對他說:"廚房裡小鍋燉著東西，你幫我去看看。”他真真地守了一個多小時，端到她面前。

真人芭比：一直說自己“沒整容”最後晒出舊照，打臉的卻是自己

俗話說的好“愛美之心人人都有”而讓自己快速變美的方法無疑就是“整容”如今的社會整容看起來似乎很平常。

驚了！這件事沒有做，一消證書等於白考！

不要慌，同學們，遇到問題不要怕，拿到證書不去註冊，相當於證書無效，今天就為大家一一解答註冊證書的相關問題。

8年後，有哪些人會留在農村生活？以下4類人群或將留下，有你嗎

從九十年代末開始，在我國農村地區就興起了一股“進城潮”，記得那個時候，農村的經濟發展相對滯後，村民生活條件艱苦，鄉親們為了擺脫貧困，只能告別親人，遠離家鄉去外面打拼賺錢。

唯一回絕張藝謀力捧的女生，被報送上清華，25歲有上百億身家

25歲有上百億身家文/娛樂深扒爆姐圖/網絡張藝謀是一位非常有實力的導演，同時非常出名，而且他拍攝的作品中有不少獲獎無數的經典影片，同時也捧紅過不少藝人。

疫情下的悲劇：買不起手機上網課，那個女孩決定吞藥自殺

有人為了生計不顧自身安危，有人躲在家中安然度日，還有人僅僅因為一個手機，就要放棄自己的生命...這個女孩，今年上初三，因為疫情的原因，全國各地都展開了網課線上教育，女孩的學校也不例外。

李棟旭劉仁娜新劇開拍，互對臺詞歡樂多，終於要開始撒狗糧了嗎？

這部劇是2016年年底播出的，熱度一直持續到了2017年，相關的周邊和景點都相當熱門，像是池恩卓跟鬼怪大叔相遇的海邊、劇中出現的鬼怪玩偶、還有鬼怪大叔的拔劍特效等等。

高考延期：七月的高考，最熱的天，做最難的題！

後來，由於7月份氣候較差，極端天氣頻發，尤其是南方地區，要麼極端高溫，要麼就是颱風，對於高考來說非常不友好，不僅考生的考試質量會下降，而且閱卷老師、高考工作者也不方便，因此，從2003年開始，高考日期都固定在了每年的6月7日、8日。

NLP中各種各樣的編碼器

導讀

下游和語法探索任務中對句子嵌入的評估

分類任務

語義相關的任務

語法探索任務

信息檢索任務

通用句子編碼

你可以從上下文中學到些什麼？

這是一個簡單卻難以克服的句子嵌入基線

Sentence-BERT: 使用Siamese BERT-Networks的句子嵌入

詞向量集合的關係

BERT, ELMo, USE and InferSent Sentence Encoders: 研究推薦論文的萬靈藥？

總結

相關文章:

知識圖譜推理在工業上的6大落地應用

解決問題的利器——神奇的NLP“邏輯層次”理論

怎麼看待專家有3.8萬條的視頻搜索

藥物的從世人皆健的對聯變成了如今的會員禮促銷

微軟亞洲研究院副院長周明離職，將加入創新工場AI工程院

史無前例的大罷工？英航是忘記複製團隊賦能六步曲了嗎？

NLP極簡入門指南，助你通過面試，踏入NLP的大門

堪稱自然語言處理（NLP）的入門經典，也許被你擦肩而過了

認同騰訊文化的同學留意了，4月鵝廠招聘實習生，學歷不限

上海之江生物科技股份有限公司​

「回顧」自然語言處理中的多任務學習

能力介紹之NLP自然語言處理技術

「NLP育兒系列」不能在製造問題的層次來解決問題

「NLP育兒系列」眼睛暴露你的內心戲

「NLP育兒系列」父母必學的溝通小技巧

「NLP育兒系列」呼吸模式與心靈狀態

社群營銷的本質：對客戶進行忠誠度的培育和互動

Serverless 實戰：如何結合 NLP 實現文本摘要和關鍵詞提取？

什麼是基於搜索的分析？

如何做一個會議紀要

做民宿這幾年我遇到的——形形色色的客人

BERT面向語言理解的深度雙向變換預訓練

對死亡的態度

鋼鐵俠AI管家賈維斯，體貼又無所不知，Siri與小愛同學還差多遠？

高盈國際吳超：金融科技如何為投資管理賦能

【NLP】從BERT到ALBERT

AI芯片市場2026年將破700億美元！邊緣計算複合年增長率超40%

提高意志力，原來很簡單，不信？你看！

理解世界這件事，你處於哪個層次？

達觀數據多款產品亮相上交會雲展，促進技術生態合作

傳銷3神經調節術（NLP)

女子放大話：今年雙十一買東西不花錢，瞭解實情後的網友：是真的

NLP技巧 | 如果工作不是你感興趣的，怎麼辦？

BERT適應業務遇難題？這是小米NLP的實戰探索

讀《語言學綱要》有感——NLP需要語言學

你為什麼賺不到錢？或許你應該看看這個

“雲問科技”完成過億元融資

人工智能與自然語言處理簡介：AI三大階段、NLP技術與應用

長江上游首屆花博會

NLP學院網：NLP——開發你的技巧——表象系統問卷

曾經少年 | 香儂科技何豪傑：專心才是創業者的基本品質

旦復旦兮！ACL 2020 復旦大學系列論文解讀開始了

人工智能未來會如何？記住以下5點就夠了

項目經理的修煉

項目經理的心態和自我定位

AI法律服務平臺法聰聰完成千萬級融資

險峰長青千萬元投資AI法律服務交易平臺 月收入增長70%

神思電子：公司的自然語言理解團隊在參加螞蟻金服及百度大腦閱讀理解比賽中均獲得優異成績

【NLP】從靜態到動態，詞表徵近幾十年發展回顧

除了你其他人都挺努力的

潛逃壓力過大暴瘦40多斤，一涉黑A級通緝犯在河北投案自首

當我們在談 SaaS 的時候，在談什麼？

合同詐騙的類型有哪些？企業無力償還借款是否構成合同詐騙罪？

5月西安招聘會時間安排來了！找工作的別錯過

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

全球鬧「美元荒」帶動穩定幣需求暴增！以太坊交易量創近兩年新高

“幫助當地居民解決用水難題”-今日頭條-手機光明網

灌籃高手無水印壁紙，每一張都是回憶

通遼藍天救援隊成功解救遼河公園水上被困群眾

5月6日·武漢要聞及抗擊肺炎快報

肖副省長等省市領導到孝感市楚澴中學調研九年級復學暨疫情防控常態化工作

相聲界的顏值擔當張雲雷稱號大揭祕

美國百年薅羊毛攻略

《全職高手》：一口氣刷了10集，對楊洋路轉粉了

共同承擔責任！Rookie談BP問題：輸了是我們打得太臭

上海之江生物科技股份有限公司

險峰長青千萬元投資AI法律服務交易平臺月收入增長70%

應急科普丨“五一” 期間氣溫回升謹防森林火災隱患