一萬美元獎金怎麼拿到手？詳述ICDM知識圖譜競賽，2020年仍有機會

2020-03-10 09:53:23 AI科技評論

明略科技首席科學家吳信東教授等人曾在ICDM 2019上舉辦了首屆 IEEE ICDM/ICBK 知識圖譜大賽，獎金一萬美金。本文內容對這次比賽做了詳細總結。亮點包括：

探討知識圖譜的現狀與挑戰；
闡明數據圖譜和知識圖譜的差異；
賦予知識圖譜較為完備的學術定義；
挖掘構建知識圖譜的關鍵技術；
闡述 5 個獲獎團隊各自的模型；
介紹常用的構建知識圖譜的工具包。

在今年即將舉辦的 ICDM 2020 上，第二屆比賽將繼續進行，獎金只多不少。

文 | Sharon Lu

編 | 賈偉

作為國際頂級數據挖掘會議之一，ICDM與KDD並稱“國際數據挖掘兩大頂級會議 ”(WSDM 的勢頭也很猛，但偏WS)，如何更進一步，ICDM創始人吳信東教授（IEEE & AAAS Fellow，現任明略科技首席科學家）任重而道遠。ICDM最為業界所知名的是其Regular Paper錄用率歷年來一直保持極低水平（10% 左右）。以 ICDM 2019 （北京）為例，共收到來自56個國家共1046篇投稿，而僅錄用了 95 篇（錄用率為9.1%）。

在本次會議中，由明略科學院和合肥工業大學聯合主辦以及澳大利亞麥考瑞大學協辦，成功舉行了首屆 IEEE ICDM/ICBK 知識圖譜大賽。這是一場獎金 10000 美元的比賽。

在這次比賽中，參賽團隊需在至少兩個不同領域的非結構化文本中自動構建知識圖譜（即在無人工干預的情況下，從特定領域或多個領域的非結構化文本中構建知識圖譜），並開發一個應用程序將其可視化。

針對這次比賽的內容，本文詳細分析了知識圖譜構建的現狀與挑戰，搭配具體的例子給有興趣的同學提供通俗易懂的理解方式。此外也探索了知識圖譜構建中的關鍵技術，主要側重在Entity Recognition，Relation Extraction，Co-reference Resolution。

據瞭解，今年 ICDM 將於2020年11月17-20日在意大利南部城鎮索倫託舉行，而IEEE ICDM 知識圖譜競賽也將同期舉辦，比賽獎金相比去年會只多不少。敬請期待！

本文內容略長，概略來講，貢獻亮點如下：

探討了知識圖譜的現狀與挑戰；
闡明瞭數據圖譜和知識圖譜的差異；
賦予了知識圖譜較為完備的學術定義；
挖掘了構建知識圖譜的關鍵技術；
闡述了5個獲獎團隊各自的模型；
介紹了常用的構建知識圖譜的工具包。

英文原文鏈接:

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8970862

翻譯、整理：

Sharon Lu, Wuhan University of Technology, China

1、知識圖譜現狀及挑戰

知識圖譜(knowledge graph)普遍應用於Web搜索[1], 推薦[2]和知識問答[3]等領域。目前, 大多數高質量的知識圖譜項目是由志願者通過眾包構建，例如Wikidata[4]。如果能夠自動構建知識圖譜系統，將極大改善當前知識圖譜構建較繁瑣的現狀，以便於在更多商業場景中對知識進行結構化處理和管理。根據文本信息構建知識圖譜一直以來都是極具挑戰性的問題[5]。

圖1. 構建知識圖譜現狀與挑戰

知識圖譜在構建的過程中面臨以下三個方面的挑戰：

信息丟失 (information loss)；

信息冗餘(information redundancy)；

信息重疊 (information overlapping)。

信息丟失源於不完整的輸出圖譜。信息冗餘指在輸入文本中不存在但在背景知識中存在的額外概念和關係。

舉個栗子: “Bob hit the nail into the wall with a hammer.” 對應的一個完整的知識圖譜表達需包含:

entities (實體): Bob, nail, wall and hammer
relations(關係): (Bob, hit, nail), (nail, into, wall), and (Bob, with, hammer)

信息重疊源於知識圖譜能否對屬性的變化進行編碼。

舉個栗子:“John had a new fast 4-wheel car, and the car became a slow one 2 years later.” 這裡有實體“汽車”在兩年內從“快車”變成了“慢車”。

2、數據圖譜 vs. 知識圖譜

2019年10月在國家會議中心舉行了第九期“認知圖譜與推理”的主題辯論活動，國家“千人計劃”特聘專家吳信東對知識圖譜的認識問題做出了糾正。“ 知識圖譜就是概念的關係連接”，這個說法是錯誤的，節點之間以邊相連，這只是圖譜，大部分人說的其實是數據圖譜，還沒有到知識層面。現在大部分知識圖譜還停留在數據圖譜上，是對個人瞭解以後生成的個性化推薦，知識圖譜也可能有，也可能還沒有認知這一層。（來自“大數據文摘”）

知識圖譜在維基百科中定義為一種知識庫，可以通過收集多種來源的信息來優化搜索引擎的結果。當前，很多公司正在構建知識圖譜以支持多任務和功能。然而，現有的99%的“知識圖譜”實際上是沒有知識的數據圖譜 (data graph)。

舉個栗子：“Bob and I were high-school classmates, and I will invite him for a dinner to celebrate our 25th year class reunion in 2020” 如果在圖中不能識別出“他”是誰並且不能提供任何關於他們高中畢業的時間信息，這個圖便僅是數據圖譜。

知識圖譜 (knowledge graph) 是一種語義圖譜 (semantic graph)，用於描述物理世界中的概念及其關係，它包含三個基本組成部分：

1、概念 (concepts)。

舉個栗子: 概念可以是實體（如“人”）、屬性（如“年齡”）或事實（如“有四扇門的紅色汽車”），用節點表示。

2、關係 (relations)。關係是兩個節點之間帶有語義標籤的連接。

舉個栗子:“是一個”、“有一個”或動作（如“成為”）。

3、與概念和關係相關的背景知識 (background knowledge about concepts and relations)。概念可以具有不同的名稱。

舉個栗子: Professor X. Wu和Dr. Xindong Wu，以及可能具有的多個屬性，如身高和職業。關係可以具有不同的表現，如“從前有”、“現在一個人有”和“現在多個人有”。以詞典或本體存在的背景知識可以在語義上連接不同的名稱、屬性和表現。

數據圖譜沒有關於節點或關係的背景知識，是僅僅具有點和連線的圖。知識圖譜的兩個基本結構是“實體-關係-實體”(entity-relation -entity)三元組和“實體-屬性”(entity-attribute)對。在這兩種結構中，實體通過它們之間的關係連接在一起，從而形成圖結構的知識庫。所以，知識圖譜是關係的一種有效表達方法，它用圖的形式描繪現實世界。

例如，下圖便是展示了宮崎駿作品 “考慮了相關背景知識” 的知識圖譜。

圖2. 宮崎駿作品知識圖譜 [來源於明略科技HAO圖譜系統]

3、比賽比什麼？

圖3. 比賽流程

此次競賽（首屆 IEEE ICDM/ICBK 知識圖譜競賽）的目的是生成一種知識圖譜，以模擬人類在閱讀一段文字時的思維模式。這裡“人類”被假定為該段素材的人類閱讀者。最終的比賽結果由專家評判。鑑於不同的專家不可避免地會關注文本的不同組成部分，其評判結果具有一定的主觀性，為了確保競賽結果的客觀性，每一個競賽作品均由兩名專家進行評審。最終的入圍名單由組委會在檢查完每一個團隊提交的所有打包材料之後決定。

1）比賽數據設計及要求

每個參賽團隊在競賽組委會收集的同一個數據集上進行方法測試。該數據集包含300篇已經發表的新聞文章，這些文章分別涉及四個不同的行業：汽車工程、化妝品、公共安全和餐飲服務。每篇文章有150-250個字，包含8-20個實體。並且，每篇文章由該領域專家整體審核，確保了文章內容的多樣性和深度並保證了每篇文章用詞合理，使其既不會過於正式也不過於貧乏。來自上述四個領域的多位專家事先對300篇文章中的120篇進行人工標註。專家對同義詞進行分組標註形成該組文章的同義詞詞典，進而手動標註出兩個實體詞之間的語義關係。

在線上評估階段，首先，根據同義詞詞典，將提交的每個實體詞替換為同義詞集標籤；然後，將每篇文章中提到的實體詞標籤與專家事先標註的標籤進行對比。最後，每篇文章的容錯標準由制定標籤的行業專家確定。

每個團隊需建立模型，以一篇文章作為輸入並輸出相應圖譜。具體的規定如下：節點必須是文章中的實體詞或短語；連接邊必須是實體之間的關係詞或短語；節點必須由原文中的單詞或短語表示；合併單詞的同義詞。NLP相關會議在過去幾年舉行過類似的競賽，這些競賽是用開放文本構建知識圖譜並事先給出了實體和/或關係的預定義架構，以便隨後通過信息抽取模型提取信息。本次競賽的新穎之處在於，沒有預先為實體或關係設定任何類型的架構。

2）具體比賽流程及評分標準

在第一階段，每個團隊提交按行業劃分的三元組，然後與專家標記的三元組進行比較 (數據集是300篇文章中的120篇)。每個團隊的得分是通過計算所有行業得分的均值獲得。具體而言，利用NetworkX[6]測算各個團隊從文本中生成的圖譜與兩個行業專家標記的圖譜之間的距離，距離越小的團隊生成的圖譜更接近實際。為了進一步增強比賽結果的客觀性，各個團隊提交文件中的實體詞被行業專家標記的同義詞詞典中的單詞替換。若提交內容與專家標記相同則獲得“最高分”0，提交空文件的得分約為17.51。

在第二階段，8個團隊需分別開發一個Web應用程序，該程序以一小段文本作為輸入並輸出知識圖譜。每個團隊提交的Web應用程序由12位學者組成的小組評分。具體而言，根據評分標準，團隊構建的圖譜質量佔比60%，Web設計佔比20%，剩餘的20%分配給團隊構建網站的魯棒性。

4、知識圖譜構建的關鍵技術

知識圖譜構建的過程一般包含三個部分：信息抽取 (information extraction)、知識融合(knowledge fusion)和知識處理 (knowledge processing)。

本次競賽只包括信息抽取和知識融合。信息抽取的目的是識別和分離數據源中的實體、實體的屬性和實體間的關係。因此，信息抽取這一過程中並沒有直接輸出實際的“知識”。信息抽取涉及到的兩項關鍵技術包括實體識別 (entity recognition)和關係抽取 (relation extraction)。此外，共指消解 (co-reference resolution) 會運用於知識融合中。

圖4. 知識圖譜構建流程

1）實體識別

實體抽取，又被稱為命名實體識別 (Named Entity Recognition, NER)，是指從數據 (尤指文本數據)中準確識別出命名實體的過程[7]。具體包含三個類別：實體類 (如人名、地名和機構名)，時間類 (如日期和時間) 和數據類 (如貨幣和百分數)[8]。這些類別可以進行擴展以適應特定的應用領域。

圖5. NER 示例 [Source：網絡]

NER技術已經從基於規則的方法 (rule-based method) 過渡到統計方法 (statistical approach)，具體而言包含以下範例：

1）基於規則的方法：在早期的NER研究中，特別是在消息理解系列會議（Message Understanding Conference, MUC）中, 大多數主流的NER方法背後的基本思想是手動構建一組有限的規則，然後在文本中搜索與這些規則匹配的字符串。

2）基於機器學習的方法：基於機器學習的NER研究大致可以分為三個主題：模型和方法的選擇,模型和方法的改進以及特徵的選擇。

3）基於深度學習的方法：深度學習技術在近年來已成為機器學習領域一個新的研究熱點，與許多其他領域一樣，深度學習技術已經成功的解決了一些NER問題。詞向量表示 (word vector representation) 為解決NER序列化標記問題提供了支撐。Cherry 和Guo[9]提出了使用詞向量表示特徵的最簡單且最高效的方法。Godin等[10]提出了帶有NER的Twitter推文的分佈式詞表示。近期，Arora等[11]提出了一種神經-半馬爾科夫結構支持向量機模型，該模型通過在訓練過程中給loss-augmented inference 過程中不同類型的錯誤分配權重來保持精度和召回率之間的平衡。

本次競賽的獲勝團隊使用了多種方法進行實體識別。

Team UWA使用NLP工具SpaCy[12]對帶有相同詞性 (Part-Of-Speech, POS) 的標籤以及根據預定義規則抽取的成塊名詞和動詞短語進行分類。名詞塊（noun chunk）被定義為描述名詞的詞。動詞塊 (verbal chunk) 是動詞及其周圍的介詞和助詞[13]。在可視化步驟中，名詞組被分配到與被SpaCy識別出最相似實體相同的類別中，並且節點用顏色標記。

Team Tmail使用 Stanford OpenIE 工具包[14]、OpenIE 5.0[15]和SpaCy[12]提取命名實體並從OpenIE工具箱修改的數據中將這些實體改成原始詞。

Team BUPT-IBL使用了自主開發的模型SC-LSTM[16]，另外還使用了Stanford CoreNLP[14]和SpaCy[12]。為了使用兩個抽取模型以消除冗餘實體，該團隊設計了一個字符串匹配規則。

Team MIDAS-IIITD使用了NLTK[17]和SpaCy[12]進行預處理。該團隊也使用NLP工具包[18]將句子拆分為成塊的短語並從中選擇部分構建輸出三元組。

Team Lab1105使用了SpaCy[12]。另外，該團隊在CoNLL 2003 NER數據集[19]中訓練了BiLSTM + CRF模型，該模型包含四種類型的實體：人 (PER)、組織 (ORG)、位置 (LOC)和其他名稱 (MISC)。

2）關係抽取

通過信息抽取獲得圖形中的實體 (節點) 後，下一步就是對構建連接邊所需的關係進行抽取。

關係抽取與實體抽取方法類似，其早期主要工作都基於規則。基於規則方法的研究進展有限，但是自從將監督學習運用於關係抽取之後，該研究取得了較大進展。由於監督學習需要大量手工標記的樣本，人工成本高，所以研究者們近期開發了半監督、無監督和自我監督的方法以減少對標籤的需求。儘管這些方法已經在模型通用性方面取得了一些進展，但是自然語言非常複雜，關係抽取問題還遠遠沒有被解決。下面是關係抽取的主要學習方法的概述[20]。

圖6. 關係挖掘 (relationship extraction) 示例 [Source：網絡]

1）監督學習 (supervised learning): 監督學習體現了對人類標註數據進行分類的思想。這些方法一旦經過訓練就可以通過匹配和抽取特定關係進行識別實體。用於關係抽取的監督學習可以分為兩大類：基於特徵向量的方法 (feature vector-based methods) 和基於核的方法 (kernel-based methods)。

2）半監督學習 (semi-supervised learning): 大多數半監督學習與上述監督學習相比具有兩個額外的步驟。首先是預設定一些關係類型。其次，將適當的實體對作為種子合併到訓練集中。這些方法減輕了對大量標籤的依賴。

3）領域獨立 (domain-independent learning)：領域獨立放寬了對域規範的需求，這意味著這些方法易於擴展,可以應用於多個領域。一些研究人員已經合併了外部知識庫，如Wikipedia，以補充各自的方法[21]。Bank[22]提出了公開信息抽取的框架和抽取模型TextRunner，並由Fader[23]和Schmitz[24]提高TextRunner的性能。這些方法假定每對實體具有已知關係，並使用上下文信息構造實體的特徵表示。

4）遠程監督 (distant-supervised methods)：遠程監督[25],[26]通過將非結構化文本與知識庫匹配，從而自動生成大量的訓練數據。Mintz等[27]嘗試將遠程監督納入文本處理中，以通過語料和文本匹配來自動生成訓練樣本，從而提取特徵訓練分類器。Ji等[28]提出了句子級模型 (sentence-level model)，該模型可以選擇有效實例並充分利用知識庫中的監督信息。

5）深度學習 (deep learning)：深度學習在自然語言處理 (natural language processing, NLP)和圖形識別方面已得到廣泛應用，由此激發了研究者將此方法用於解決關係抽取問題。深度網絡的架構有多種形式，如遞歸神經網絡 (recurrent neural networks, RNNs)[29]、卷積神經網絡(convolutional neural networks, CNNs)[30]、CNNs和RNNs組合[31],[32]以及長短期記憶 (long short-term memories, LSTMs)[33]。

競賽獲獎者使用的不同關係抽取方法的總結如下：

Team UWA通過在句子中抽取諸如動詞、介詞和後置詞之類的關係詞，然後將每個關係短語與其左、右實體相結合以形成三元組，從而將實體映射成對。圖譜由每篇文章構建而成，用於查找分佈在多個句子中的關係同時通過刪除帶有停用詞 (stop words) 的實體來過濾三元組。該團隊運用預先訓練好的基於注意力 (attention-based) 的Bi-LSTM模型[33]顯示關係名稱，從而達到圖形可視化的目的。

Team Tmail使用Stanford OpenIE工具包[14]和OpenIE[15]進行關係抽取。由於該團隊在命名實體識別和關係抽取中使用了多個模型，所以他們定義了一些手寫規則以減少冗餘的三元組數量，如刪除實體短語中的停用詞（'an'，'the'，'it'）、或使用SpaCy[12]定位名詞塊併合並具有相同名詞塊的實體。

Team BUPT-IBL主要使用Stanford OpenIE工具包[14]，並基於語法樹設計了一個模型來抽取更多的三元組，從而顯著提高其模型的性能。

Team MIDAS-IIITD設計了手寫規則，以基於實體塊的POS標籤獲得三元組。

Team Lab1105使用了SpaCy[12], 並設計了一系列基於主語、賓語、謂語和介詞的手寫規則以提取三元組。

3）共指消解

共指消解 (co-reference) 或實體解析 (entity resolution) 用於知識庫中的一個實體鏈接到多個實體引用的情況中。例如，“President Trump”和“Donald John Trump”是同一個人，因此在這兩個實體引用鏈接到知識庫中的一個實體之前，應將其合併。

圖7. 共指消解 (co-reference) 示例 [Source：網絡]

實體解析的解決方案近年來大都基於最新的機器學習方法。McCarthy等[34],[35]將實體解析轉換為分類問題，並使用決策樹算法對其求解。Bilenko等[36-38]將實體解析轉換為聚類問題，並訓練分類器來識別重複對。術語相似度[39]和查詢上下文相似度[40]能克服數據稀疏性並能在不同文本背景的實體之間建立關聯。本次競賽的五個獲勝團隊中有四個 (UWA，BUPT-IBL，MIDAS-IIITD和Lab1105)使用NeuralCoref [41]進行實體解析。

5、案例 Showcases

表 I 中列出了5個獲勝團隊。

每個團隊根據以下文本生成的知識圖譜：

“BYD debuted its E-SEED GT concept car and Song Pro SUV alongside its all-new e-series models at the Shanghai International Automobile Industry Exhibition. The company also showcased its latest Dynasty series of vehicles, which were recently unveiled at the company’s spring product launch in Beijing.”

1）Team UWA

Team UWA 在其Web應用程序中對上述示例文本構建的知識圖譜如下圖所示。該團隊的模型成功抽取了所有的實體和關係，並正確地將第二句中的第一個‘company’和第一句中的‘ BYD’識別為同一實體。但是它沒有將第一個句子中的‘BYD’與第二句中的第二個‘company’鏈接為同一實體，這可能由兩個短語之間的距離較大所致。

圖8. Team UWA 構建示例文本的知識圖譜

2）Team Tmail

Team Tmail生成的圖譜如下圖所示。該團隊已經成功識別大多數實體，並正確鏈接。然而，他們的模型中並未完全過濾重複的三元組（如，‘Song’和‘ Song Pro SUV’），也未識別出語義上屬於同一實體的詞組（如，‘ BYD’和‘company’）。

圖9. Team Tmail 構建示例文本的知識圖譜

3）BUPT-IBL

Team BUPT-IBL的結果如下圖所示。該團隊識別出大多數實體，並在共指消解方面做得很好。但有些三元組的提取並未遵從原文的文意（如，E-SEED GT concept car, debuted, BYDs spring product launch）。

圖10. Team BUPT-IBL 構建示例文本的知識圖譜

4）MIDAS-IIITD

Team MIDAS-IIITD產生的知識圖譜如下圖所示。該模型成功抽取了一些實體和關係，但未能將‘company’與‘BYD’關聯起來。

圖11. Team MIDAS-IIITD 構建示例文本的知識圖譜

5）Lab1105

Team Lab1105生成的知識圖譜如下圖所示。該團隊正確的抽取大多數實體並使其正確相互鏈接。然而，該團隊在實體識別前後兩次應用了共指消解，從而用實體術語代替了所有格代詞，併為某些實體添加了多餘的術語。此外，該團的模型也需得到進一步改進，以將‘BYD’ ‘the company’鏈接起來。

圖12. Team Lab1105 構建示例文本的知識圖譜

參考文獻

[1] C. Xiong, R. Power, and J. Callan, “Explicit semantic ranking for academic search via knowledge graph embedding,” in Proc. WWW, 2017, pp. 1271–1279.

[2] Z. Sun, J. Yang, J. Zhang, A. Bozzon, L.-K. Huang, and C. Xu, “Recurrent knowledge graph embedding for effective recommendation,” in Proc. ACM RecSys, 2018, pp. 297–305.

[3] Y. Zhang, H. Dai, Z. Kozareva, A. J. Smola, and L. Song, “Variational reasoning for question answering with knowledge graph,” in Proc. AAAI, 2018.

[4] D. Vrandeˇci´c and M. Kr¨otzsch, “Wikidata: a free collaborative knowledge base,” Communications of the Acm, vol. 57, no. 10, pp. 78–85, 2014.

[5] Q. Liu, Y. Li, H. Duan, Y. Liu, and Z. Qin, “Knowledge graph construction techniques,” Journal of Computer Research and Development, vol. 53, no. 3, pp. 582–600, 2016.

[6] D. A. S. Aric A. Hagberg and P. J. Swart, “Exploring network structure, dynamics, and function using networkx,” in Proc. SciPy, 2008.

[7] D. Nadeau and S. Sekine, “A survey of named entity recognition and classification,” Lingvisticae Investigationes, vol. 30, no. 1, pp. 3–26, 2007.

[8] L. Liu and D. Wang, “A review on named entity recognition,” Journal of the China Society for Scientific and Technical Information, vol. 37, no. 3, p. 329, 2018.

[9] C. Cherry and H. Guo, “The unreasonable effectiveness of word representations for twitter named entity recognition,” in Proc. NAACL, 2015, pp. 735–745.

[10] F. Godin, B. Vandersmissen, W. De Neve, and R. Van de Walle, “Multimedia lab@ acl wnut ner shared task: Named entity recognition for twitter microposts using distributed word representations,” in Proc. EMNLP-WNUT, 2015, pp. 146–153.

[11] R. Arora, C. Tsai, K. Tsereteli, P. Kambadur, and Y. Yang, “A semimarkov structured support vector machine model for high-precision named entity recognition,” in Proc. ACL, 2019, pp. 5862–5866.

[12] M. Honnibal and I. Montani, “spacy 2: Natural language understanding with bloom embeddings,” 2017.

[13] M. Stewart, M. Enkhsaikhan, and W. Liu, “Icdm 2019 knowledge graph contest: Team uwa,” in Proc. ICDM, 2019.

[14] C. D. Manning, M. Surdeanu, J. Bauer, J. R. Finkel, S. Bethard, and D. McClosky, “The stanford corenlp natural language processing toolkit,” in Proc. ACL, 2014, pp. 55–60.

[15] S. Saha and M. Mausam, “Open information extraction from conjunctive sentences,” in Proc. COLING, 2018, pp. 2288–2299.

[16] P. Lu, T. Bai, and P. Langlais, “Sc-lstm: Learning task-specific representations in multi-task learning for sequence labeling,” in Proc. NAACL, 2019, pp. 2396–2406.

[17] S. Bird, E. Klein, and E. Loper, Natural language processing with Python: analyzing text with the natural language toolkit.” O’ReillyMedia, Inc.”, 2009.

[18] A. Akbik, D. Blythe, and R. Vollgraf, “Contextual string embeddings for sequence labeling,” in Proc. COLING, 2018, pp. 1638–1649.

[19] E. F. Tjong Kim Sang and F. De Meulder, “Introduction to the conll-2003 shared task: Language-independent named entity recognition,” in

Proc. CoNLL, 2003, pp. 142–147.

[20] D. Xie and Q. Chang, “Review of relation extraction,” Application Research of Computers, vol. 37, no. 7, pp. 1–5, 2019.

[21] F. Wu and D. S. Weld, “Open information extraction using wikipedia,” in Proc. ACL, 2010, pp. 118–127.

[22] M. Banko, M. J. Cafarella, S. Soderland, M. Broadhead, and O. Etzioni, “Open information extraction from the web,” in Proc. Ijcai, vol. 7, 2007, pp. 2670–2676.

[23] A. Fader, S. Soderland, and O. Etzioni, “Identifying relations for open information extraction,” in Proc. EMNLP, 2011, pp. 1535–1545.

[24] M. Schmitz, R. Bart, S. Soderland, O. Etzioni et al., “Open language learning for information extraction,” in Proc. EMNLP-CoNLL, 2012, pp. 523–534.

[25] M. Surdeanu, J. Tibshirani, R. Nallapati, and C. D. Manning, “Multi-instance multi-label learning for relation extraction,” in Proc. EMNLPCoNLL, 2012, pp. 455–465.

[26] C. Quirk and H. Poon, “Distant supervision for relation extraction beyond the sentence boundary,” arXiv preprint arXiv:1609.04873, 2016.

[27] M. Mintz, S. Bills, R. Snow, and D. Jurafsky, “Distant supervision for relation extraction without labeled data,” in Proc. ACL-IJCNLP, 2009, pp. 1003–1011.

[28] G. Ji, K. Liu, S. He, and J. Zhao, “Distant supervision for relation extraction with sentence-level attention and entity descriptions,” in Proc. AAAI, 2017.

[29] R. Socher, B. Huval, C. D. Manning, and A. Y. Ng, “Semantic compositionality through recursive matrix-vector spaces,” in Proc. EMNLPCoNLL, 2012, pp. 1201–1211.

[30] Y. Lin, S. Shen, Z. Liu, H. Luan, and M. Sun, “Neural relation extraction with selective attention over instances,” in Proc. ACL, 2016, pp. 2124–2133.

[31] X. Guo, H. Zhang, H. Yang, L. Xu, and Z. Ye, “A single attention-based combination of cnn and rnn for relation classification,” IEEE Access, vol. 7, pp. 12 467–12 475, 2019.

[32] V.-H. Tran, V.-T. Phi, H. Shindo, and Y. Matsumoto, “Relation classification using segment-level attention-based CNN and dependency-based RNN,” in Proc. NAACL, 2019, pp. 2793–2798.

[33] P. Zhou, W. Shi, J. Tian, Z. Qi, B. Li, H. Hao, and B. Xu, “Attentionbased bidirectional long short-term memory networks for relation classification,” in Proc. ACL, 2016.

[34] J. F. McCarthy and W. G. Lehnert, “Using decision trees for coreference resolution,” arXiv preprint cmp-lg/9505043, 1995.

[35] D. Bean and E. Riloff, “Unsupervised learning of contextual role knowledge for coreference resolution,” in Proc. HLT-NAACL, 2004, pp. 297–304.

[36] M. Bilenko and R. J. Mooney, “Adaptive duplicate detection using learnable string similarity measures,” in Proc. KDD, 2003, pp. 39–48.

[37] P. Christen, “Febrl: a freely available record linkage system with a graphical user interface,” in Proc. HDKM, 2008, pp. 17–25.

[38] T. Cheng, H.W. Lauw, and S. Paparizos, “Entity synonyms for structured web search,” IEEE Transactions on Knowledge and Data Engineering, vol. 24, no. 10, pp. 1862–1875, 2011.

[39] P. Pantel, E. Crestan, A. Borkovsky, A.-M. Popescu, and V. Vyas, “Webscale distributional similarity and entity set expansion,” in Proc. EMNLP, 2009, pp. 938–947.

[40] K. Chakrabarti, S. Chaudhuri, T. Cheng, and D. Xin, “A framework for robust discovery of entity synonyms,” in Proc. KDD, 2012, pp. 1384–1392.

[41] T. Wolf, “Neuralcoref 4.0: Coreference resolution in spacy with neural networks.” 2017.

分享到:

閱讀更多 AI科技評論 的文章

關鍵字: 維基數據美好，一直在身邊

鹽湖區人民法院2020.3.30——2020.4.3結案排行榜

(2020.4.7）今日豬價！

數據｜私募基金一週備案統計 (2020.3.29-2020.4.3)

2020

2020.4.4清明

逝者安息(2020.4.4)

2020.4.3 早刊指導

洛杉磯活動早知道3/4/2020-9/4/2020

2020.4.2-明日豬價

2020.4.1-仔豬價格行情

2020.3.31新型病毒感染速度的可怕

數據｜私募基金一週備案統計 (2020.3.23-2020.3.28)

2020.3.25

2020.3.24

2020.03.23

排列五20031期兩步規律預測參考，2020.3.21開

感謝Dora 為戰“疫”“逆行者”返程紀念日而作-2020.3.17

數據｜私募基金一週備案統計 (2020.3.9-2020.3.15)

獵奇達人頭領-2020.3.7 這個屁居然凝聚不散，放者定是運上了內力

2020.02.20，愛你，愛你，愛你，愛你

“你好，2020”同題創作大賽優秀文章——肖蓓琦《你好！2020》

“你好，2020”同題創作大賽優秀文章——劉若涵《你好！2020》

2020 RACC 全球推廣首站——2020 AHR EXPO

2020.02.02.20:20

2020.02.02，順順順順順順，順順順順順順

2020.1.11，順順順

01.06 2020.1.6本來要出差，航班延誤了，掃幾張

2020.1.1，順順，順順順，順順順，順順順

01.01 2020.1.1，順順，順順順，順順順，順順順

2020.01.01，恭喜發財

01.01 2020.01.01，恭喜發財

2020，福滿你家

2016-2020

2020，希望一切都順利

2020，愛你愛你

2020，裝修費用上漲成定局

2020，民宿行業還有哪些風口？

12.04 2020，走好自己的路

12.02 壁紙：2020

2020，實體店還有多少生存空間？

2020 廣州樂器展重磅來襲丨參觀預登記全面開通

PS 2020 平面圖像處理軟件中文英文破解版 Photoshop 2020 Win

2020~2022世界建築高度排行

2020 庶民政治關鍵元年？

2020、2021年蘇州大學應用技術學院五年制專轉本在哪裡報名

2020-2021中國傳媒大學新聞與傳播（專碩）考研資料解析

03.26 2020，5G將帶來中美經濟大變局！

沈巍先生雜談（358）說好的快手不倒，陪伴到老呢？個個都是戲精

轉念一想，這種看似不正常的狀態才是正常的，隨著時間的推移，很多過去迷迷糊糊的人慢慢就看清了，是進是退跟著內心走就好，別管什麼善始善終，不要被這種論調道德綁架，過段時間，你覺得可以，再回來就行，開關在你自己手裡，一秒鐘就能完成進退。

出海奮鬥是有膽識後浪的更優選項

東南亞11國，除去東帝汶，其他10國組成東盟。東南亞有多熱，從很多國際資本的快速湧入都有目共睹。養老產業：泰國、越南、菲律賓、馬來西亞、印尼都是大受歐美日韓退休人士歡迎的亞洲養老目的地。

甲有5套房，不上班，收房租；乙有1套房，上班賺工資；丙租房子.

每逢佳節被相親，單身青年看這裡！

“非常戰疫

為珠峰“量身高”，為啥要人上去？

6日，2020珠峰高程測量行動測量登山隊舉行出發儀式，30多名計劃登頂的測量登山隊員當日從海拔5200米的珠峰登山大本營向更高海拔出發，計劃抓住近日的天氣窗口，擇日登頂測量。如果成功，這將成為我國專業測繪人員首次登頂珠峰測高。

我省獲國家局通報表揚

湖南名字最尷尬的城市，90%的人都會想歪，當地人：思想有問題！

湖南省作為中國中南地區的一個省份，經濟強勁，地位獨特，有著十足的發展後勁。湖南經濟總量在全國排名第九。湖南也是華夏文明的發祥地，境內的炎帝陵，成為華夏兒女尋根祭祖的重要場所。南嶽衡山就在湖南衡陽。湖南張家界景區成為馳名中外的旅遊景點。湖南湘西鳳凰古鎮成為中國馳名十大古鎮之一。

超六成前浪點贊《後浪》，全球白手起家90後富豪人均財富190億

再不來一場精緻野餐，我就要被開除中產籍了

《新週刊》創刊於1996年8月18日，由南方出版傳媒股份有限公司主管、主辦，以“中國最新銳的生活方式週刊”為定位，推出過一系列極具影響力的專題報道，是中國期刊市場最具代表性和影響力的雜誌之一，享有“話題策源地”的美譽。

工程師我只服中國，曾經放生到三峽的1萬條魚，如今怎麼樣了？

每一個大項目其實都會面臨一個問題，那就是生態環境，因為所涉及的範圍實在太廣了，所以需要考慮的問題都是多方面的，三峽就是我國早期的一個超大體量的工程，而三峽所涉及的問題也很多。三峽其實一直都是我國的驕傲，但是關於三峽的質疑聲，其實也一點都不少，特別是關於三峽環境方面的質疑聲。

後疫情時代的五個營銷啟示

現象級白酒——李渡高粱酒，作為沉浸式/場景化營銷的開創者，早在幾年前就使用互聯網工具助力，疫情爆發後一系列的操作自然遊刃有餘了，銷量同比增加170%，線上銷量更是增加400%。

丘北縣雙龍營鎮人民政府普者黑村委會、矣則村委會太陽能路燈採購安裝項目競爭性談判公告

為什麼重量相同的金子，銀行賣得比金店還便宜？看完漲知識了

為什麼重量相同的金子，銀行賣得比金店還便宜？看完漲知識了金子一直是我們中國人比較喜歡投資的一個東西，黃金飾品也是中國女性非常喜歡購買的東西，大家都知道，金子具有保值的功能，所以很多人既喜歡在銀行購買金條用於投資，又喜歡去一些金店購買黃金飾品。

打雷的時候，到底要不要拔掉插頭，關閉電路呢？看完漲知識了

打雷的時候，到底要不要拔掉插頭，關閉電路呢？看完漲知識了大家都會知道，每到夏天，我們的沿海地區都是一個多風多雨的季節，這時候我們出門也是需要隨時帶上雨具，避免突然有暴風雨這些天氣的出現。

乘坐火車時，把車票弄丟了怎麼處理？看完可算知道了

乘坐火車時，把車票弄丟了怎麼處理？看完可算知道了每次一到假期，就非常害怕到達火車站，可以說是基本上都是人山人海的感覺。很多人會為了方便去選擇去乘坐動車和高鐵。現在我們無論是出差還是去旅遊也都是會選擇去坐動車，又快又方便，主要還會很舒服。

肖戰視頻專訪：眼裡帶著故事，請不要聽說他，這一次，請他說

這是肖戰春節後，經歷過這麼多事後首次參加採訪。視頻中他依然是面帶微笑，依舊是少年的樣子。但是眼裡到這故事，說話也變得小心謹慎，談吐措辭也是越來越嚴謹了。

秦山核電應急行動水平優化項目招標公告

從中國電力集採招標網（www.dljczb.

巴基斯坦SK水電站消防及火災報警系統設備採購招標招標公告

從中國電力集採招標網（www.dljczb.

中煤能源新疆鴻新煤業葦子溝煤礦瓦斯抽採機械設備採購招標公告

從中國電力集採招標網（www.dljczb.

縣域社區團購，在平臺發展上有哪些優勢？

社區團購的迅速發展，已經不再侷限於各大城市中的小區。漸漸的擴大範圍，發展到一些城市邊緣的縣城鄉鎮。像是興盛優選、十薈團、食享會、考拉精選、美家買菜等月流水上億的社區團購頭部企業，都很重視下沉市場的佈局和開拓。

和王為念離婚，與“假奶奶”常香玉對簿公堂，55歲小香玉生活如詩

戲曲是以古代故事以及現代經典故事為題材的藝術表演，也是歷史悠久的綜合舞臺藝術樣式，表演戲曲難度很高，但戲曲人才依舊人才輩出，說起在戲曲圈中的佼佼者，陳百玲必是其一。

眼力測試：由4字組成的白菜，1秒看出4個字的智商都很高

這是一幅白菜圖，由4字組成的，1秒看出4個字的智商都很高！你看出來了嗎？

看圖猜字：這個不簡單，你能猜對幾個？全猜對眼力非凡

這福圖上的圖你能猜對幾個？全猜對眼力非凡，猜對3個眼力160，猜對3個是近視眼！你能猜對幾個字？

眼力測試：火焰中藏了4個字，看出3個算達標，全看出眼力200

熊熊火焰中藏了4個字，看出3個算達標，全看出眼力200！你能全部看出來嗎？

小米硬剛德國雙立人，400年非洲灌木做家用砧板，不發黴砍不壞

民以食為天。

眼力測試：美女圖中藏了5個漢字，全部看出來的眼力超群

這幅美女圖中藏了5個漢字，你能不能看出來是哪幾個漢字呢？全部看出來的眼力超群！

最萌Hodler，剛出生就收到比特幣大學教育基金的寶寶

作為比特幣愛好者，Izabella的父母在她出生當日於《泰晤士報》刊登了一則附帶比特幣地址的小廣告，希望廣大讀者能夠捐出小部分比特幣給他們女兒作為大學教育基金。

《瞭望大灣區》：全國中高風險區域今日“清零”

《晨會解讀》：中山證券投資顧問楊立華：連續上漲過後注意把握好操作節奏

孫鬆峰：幸福生活唱出來

河南市場安全網訊（www.hnscjgw.com）

衡水：守護一湖碧水打造生態之城

長城網衡水訊（記者張梅勝

英國小夥第一次體驗中國網吧，就被電腦屏幕嚇到直言：這是個啥

網吧其實不管是對於哪個國家的人來說，都是極具吸引力的，而在中國對於八九四年的年輕人和學生來說，網吧簡直就是快樂源泉，但是也是老師家長中的眼中釘，肉中刺。相信很多人小時候可能都有過被家長從網吧裡揪出來的不甚美好的回憶。

微商到底多能吹牛！哈哈哈哈哈千萬別屏蔽，每天都是快樂源泉

雖然有的時候在朋友圈裡有很多微商不停的發朋友圈，讓大家覺得有些困擾和煩悶，有一種私生活被侵擾的感覺。但是不要忙著屏蔽他們，有的時候這些總是吹得天花亂墜的微商也能給人們帶來快樂的源泉。

2020珠峰高程複測出發儀式今日舉行小米10全程助力丈量世界新高度

5月6日，2020珠峰高程測量登山隊伍出發儀式正式舉行，30多名隊員當日從海拔5200米的登山大本營向更高海拔出發，開啟珠峰衝頂測量。隊員們力爭抓住近日的天氣窗口，擇日登頂測量。如果成功，這將是我國專業測繪人員首次登頂珠峰測高。

“十大沂蒙工匠”齊玉祥：鋼花璀璨照亮青春之路

一支焊槍、一面防護罩，鋼花白晝繁星，在刺耳的噪聲中點亮四壁，焊工齊玉祥用13年的青春，打磨出了人生最璀璨的鋼花。2007年，齊玉祥畢業後進入山東華源鍋爐有限公司工作。剛進公司沒多久，由於工作需要，他被分配到了焊接崗位。

日本的丈母孃，賣萌發嗲也是蠻有技術的

國內這點估計是比不過了

消費水平最高的5座城市，北上廣深均在列，另一座你知道是哪嗎？

我們都知道在地大物博的中國，擁有很多城市，而它們之間的等級劃分也都是不同的，等級越高，往往消費就會越高，那麼說起國內消費水平最高的幾座城市，夥伴們都知道是哪裡嗎？接下來就讓小編帶大家去了解一下吧，看看有沒有你心中的那個。

德國愛他美怎麼樣？"斷貨王"愛他美值得買嗎？

哈哈。每次都會用iGepir 姐姐推薦來的，小寶從6個月混養喝起，現在快1歲半了，一直喝愛他美，不上火，購入量大，也算全心全意支持國際媽咪了

廣東有望合併的3座城市：合併成功後，將誕生一座千萬人口的城市

相信大家都知道，目前廣東是中國經濟實力最強的城市，哪怕是國內富有的浙江和江蘇，在經濟上也被廣東牢牢按住。你要知道廣東可是中國唯一有一線城市的省份，而且還是兩座。光靠這一點就能讓全國所有的省份羨慕，但比較遺憾的是，廣東的經濟發展似乎並不平衡。

國外奶粉怎麼樣？去哪買靠譜？線下實體店一定比網店安全嗎？

之前買的一直是國際媽咪的海外倉，但是疫情的緣故怕被吧斷糧所以在海外倉直郵了一箱又在自貿倉補了一箱，反正奶粉是消耗品，不擔心吃不完hhh。自貿倉物流速遞還是很快的，重慶保稅區發貨，4天到達。

四川潛力大的城市：還是重要的恐龍化石產地，被譽為“恐龍之鄉”

對此有的網友說:很多人可能不知道，其實我們自貢還有飛機制造，汽車製造，新能源汽車，及新能源電池研發與製造產業，雖然剛起步，但未來可期!

00後，吾輩當自強

當記者採訪她時，她說了一句讓人永生難忘的話:“其實我們並不是什麼逆行者，只不過是一些普通人在堅守自己的使命。

“我來！”

十天，我應該可以讀完一本《百年孤獨》，應該可以學會用吉他彈一首歌，還應該可以追完一部電視劇《慶餘年》。

東北唯一新一線城市：被譽為“東方魯爾”，經濟卻不如省內地級市

眾所周知這幾年東北的經濟，確實沒有以前增長得那麼快了。原因相信大家也很清楚，簡單點說就是南方更適合發展經濟。因此中國的經濟重心向南移動，所以在未來的幾年甚至幾十年裡面，中國南方的經濟都會比北方強。特別是廣東省跟浙江省的經濟水平，目前已經超越世界上大部分國家了。

人生有尺，做人有度

“救命錢”變“唐僧肉” 扶貧最後一公里處“蠅貪”頻現！

家境殷實的90後海歸女為何“沉迷”偷快遞？

青春洋溢，不加過分修飾，真實的少女感，你喜歡嗎？

4名網友預謀綁架一董事長，匯合後劇情突變……

江蘇的第二個“蘇州”，並非南京和無錫，而是這座低調的城市

說起蘇州的大名，相信是無人不知，無人不曉的，作為我國名副其實的最強地級市，蘇州近些年屬實為人們帶來了很大驚喜，甚至在經濟發展上也已經遠超省會南京，而今天小編要為大家帶來的則是江蘇境內的“第二個蘇州”，發展潛力巨大，並非南京和無錫，而是這座十分低調的城市。

一萬美元獎金怎麼拿到手？詳述ICDM知識圖譜競賽，2020年仍有機會

1、知識圖譜現狀及挑戰

2、數據圖譜 vs. 知識圖譜

3、比賽比什麼？

4、知識圖譜構建的關鍵技術

5、案例 Showcases

參考文獻

相關文章:

鹽湖區人民法院2020.3.30——2020.4.3結案排行榜

(2020.4.7）今日豬價！

數據｜私募基金一週備案統計 (2020.3.29-2020.4.3)

2020

2020.4.4清明

逝者安息(2020.4.4)

2020.4.3 早刊指導

洛杉磯活動早知道3/4/2020-9/4/2020

2020.4.2-明日豬價

2020.4.1-仔豬價格行情

2020.3.31新型病毒感染速度的可怕

數據｜私募基金一週備案統計 (2020.3.23-2020.3.28)

2020.3.25

2020.3.24

2020.03.23

排列五20031期兩步規律預測參考，2020.3.21開

感謝Dora 為戰“疫”“逆行者”返程紀念日而作-2020.3.17

數據｜私募基金一週備案統計 (2020.3.9-2020.3.15)

獵奇達人頭領-2020.3.7 這個屁居然凝聚不散，放者定是運上了內力

2020.02.20，愛你，愛你，愛你，愛你

“你好，2020”同題創作大賽優秀文章——肖蓓琦《你好！2020》

“你好，2020”同題創作大賽優秀文章——劉若涵《你好！2020》

2020 RACC 全球推廣首站——2020 AHR EXPO

2020.02.02.20:20

2020.02.02，順順順順順順，順順順順順順

2020.1.11，順順順

01.06 2020.1.6本來要出差，航班延誤了，掃幾張

2020.1.1，順順，順順順，順順順，順順順

01.01 2020.1.1，順順，順順順，順順順，順順順

2020.01.01，恭喜發財

01.01 2020.01.01，恭喜發財

2020，福滿你家

2016-2020

2020，希望一切都順利

2020，愛你愛你

2020，裝修費用上漲成定局

2020，民宿行業還有哪些風口？

12.04 2020，走好自己的路

12.02 壁紙：2020

2020，實體店還有多少生存空間？

2020 廣州樂器展重磅來襲丨參觀預登記全面開通

PS 2020 平面圖像處理軟件中文英文破解版 Photoshop 2020 Win

2020~2022世界建築高度排行

2020 庶民政治關鍵元年？

2020、2021年蘇州大學應用技術學院五年制專轉本在哪裡報名

2020-2021中國傳媒大學新聞與傳播（專碩）考研資料解析

03.26 2020，5G將帶來中美經濟大變局！

沈巍先生雜談（358）說好的快手不倒，陪伴到老呢？個個都是戲精

出海奮鬥是有膽識後浪的更優選項

甲有5套房，不上班，收房租；乙有1套房，上班賺工資；丙租房子.

每逢佳節被相親，單身青年看這裡！

為珠峰“量身高”，為啥要人上去？

我省獲國家局通報表揚

湖南名字最尷尬的城市，90%的人都會想歪，當地人：思想有問題！

超六成前浪點贊《後浪》，全球白手起家90後富豪人均財富190億

再不來一場精緻野餐，我就要被開除中產籍了

工程師我只服中國，曾經放生到三峽的1萬條魚，如今怎麼樣了？

後疫情時代的五個營銷啟示

丘北縣雙龍營鎮人民政府普者黑村委會、矣則村委會太陽能路燈採購安裝項目競爭性談判公告

為什麼重量相同的金子，銀行賣得比金店還便宜？看完漲知識了

打雷的時候，到底要不要拔掉插頭，關閉電路呢？看完漲知識了

乘坐火車時，把車票弄丟了怎麼處理？看完可算知道了

肖戰視頻專訪：眼裡帶著故事，請不要聽說他，這一次，請他說

秦山核電應急行動水平優化項目招標公告

巴基斯坦SK水電站消防及火災報警系統設備採購招標招標公告

中煤能源新疆鴻新煤業葦子溝煤礦瓦斯抽採機械設備採購招標公告

縣域社區團購，在平臺發展上有哪些優勢？

和王為念離婚，與“假奶奶”常香玉對簿公堂，55歲小香玉生活如詩

眼力測試：由4字組成的白菜，1秒看出4個字的智商都很高

看圖猜字：這個不簡單，你能猜對幾個？全猜對眼力非凡

眼力測試：火焰中藏了4個字，看出3個算達標，全看出眼力200

小米硬剛德國雙立人，400年非洲灌木做家用砧板，不發黴砍不壞

衡水：守護一湖碧水打造生態之城

2020珠峰高程複測出發儀式今日舉行小米10全程助力丈量世界新高度