一萬美元獎金怎麼拿到手?詳述ICDM知識圖譜競賽,2020年仍有機會


一萬美元獎金怎麼拿到手?詳述ICDM知識圖譜競賽,2020年仍有機會


明略科技首席科學家吳信東教授等人曾在ICDM 2019上舉辦了首屆 IEEE ICDM/ICBK 知識圖譜大賽,獎金一萬美金。本文內容對這次比賽做了詳細總結。亮點包括:

  • 探討知識圖譜的現狀與挑戰;
  • 闡明數據圖譜和知識圖譜的差異;
  • 賦予知識圖譜較為完備的學術定義;
  • 挖掘構建知識圖譜的關鍵技術;
  • 闡述 5 個獲獎團隊各自的模型;
  • 介紹常用的構建知識圖譜的工具包。

在今年即將舉辦的 ICDM 2020 上,第二屆比賽將繼續進行,獎金只多不少。


文 | Sharon Lu

編 | 賈 偉


作為國際頂級數據挖掘會議之一,ICDM與KDD並稱“國際數據挖掘兩大頂級會議 ”(WSDM 的勢頭也很猛,但偏WS),如何更進一步,ICDM創始人吳信東教授(IEEE & AAAS Fellow,現任明略科技首席科學家)任重而道遠。ICDM最為業界所知名的是其Regular Paper錄用率歷年來一直保持極低水平(10% 左右)。以 ICDM 2019 (北京)為例,共收到來自56個國家共1046篇投稿,而僅錄用了 95 篇(錄用率為9.1%)。


一萬美元獎金怎麼拿到手?詳述ICDM知識圖譜競賽,2020年仍有機會


在本次會議中,由明略科學院和合肥工業大學聯合主辦以及澳大利亞麥考瑞大學協辦,成功舉行了首屆 IEEE ICDM/ICBK 知識圖譜大賽。這是一場獎金 10000 美元的比賽。


在這次比賽中,參賽團隊需在至少兩個不同領域的非結構化文本中自動構建知識圖譜(即在無人工干預的情況下,從特定領域或多個領域的非結構化文本中構建知識圖譜),並開發一個應用程序將其可視化。


針對這次比賽的內容,本文詳細分析了知識圖譜構建的現狀與挑戰,搭配具體的例子給有興趣的同學提供通俗易懂的理解方式。此外也探索了知識圖譜構建中的關鍵技術,主要側重在Entity Recognition,Relation Extraction,Co-reference Resolution。


據瞭解,今年 ICDM 將於2020年11月17-20日在意大利南部城鎮索倫託舉行,而IEEE ICDM 知識圖譜競賽也將同期舉辦,比賽獎金相比去年會只多不少。敬請期待!


本文內容略長,概略來講,貢獻亮點如下:


  • 探討了知識圖譜的現狀與挑戰;
  • 闡明瞭數據圖譜和知識圖譜的差異;
  • 賦予了知識圖譜較為完備的學術定義;
  • 挖掘了構建知識圖譜的關鍵技術;
  • 闡述了5個獲獎團隊各自的模型;
  • 介紹了常用的構建知識圖譜的工具包。


英文原文鏈接:

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8970862

翻譯、整理:

Sharon Lu, Wuhan University of Technology, China


1、知識圖譜現狀及挑戰


知識圖譜(knowledge graph)普遍應用於Web搜索[1], 推薦[2]和知識問答[3]等領域。目前, 大多數高質量的知識圖譜項目是由志願者通過眾包構建,例如Wikidata[4]。如果能夠自動構建知識圖譜系統,將極大改善當前知識圖譜構建較繁瑣的現狀,以便於在更多商業場景中對知識進行結構化處理和管理。根據文本信息構建知識圖譜一直以來都是極具挑戰性的問題[5]。


一萬美元獎金怎麼拿到手?詳述ICDM知識圖譜競賽,2020年仍有機會

圖1. 構建知識圖譜現狀與挑戰

知識圖譜在構建的過程中面臨以下三個方面的挑戰:

信息丟失 (information loss);

信息冗餘(information redundancy);

信息重疊 (information overlapping)。


信息丟失源於不完整的輸出圖譜。信息冗餘指在輸入文本中不存在但在背景知識中存在的額外概念和關係。


舉個栗子: “Bob hit the nail into the wall with a hammer.” 對應的一個完整的知識圖譜表達需包含:

  • entities (實體): Bob, nail, wall and hammer
  • relations(關係): (Bob, hit, nail), (nail, into, wall), and (Bob, with, hammer)


信息重疊源於知識圖譜能否對屬性的變化進行編碼。


舉個栗子:“John had a new fast 4-wheel car, and the car became a slow one 2 years later.” 這裡有實體“汽車”在兩年內從“快車”變成了“慢車”。


2、數據圖譜 vs. 知識圖譜


2019年10月在國家會議中心舉行了第九期“認知圖譜與推理”的主題辯論活動,國家“千人計劃”特聘專家吳信東對知識圖譜的認識問題做出了糾正。“ 知識圖譜就是概念的關係連接”,這個說法是錯誤的,節點之間以邊相連,這只是圖譜,大部分人說的其實是數據圖譜,還沒有到知識層面。現在大部分知識圖譜還停留在數據圖譜上,是對個人瞭解以後生成的個性化推薦,知識圖譜也可能有,也可能還沒有認知這一層。(來自“大數據文摘”)


知識圖譜在維基百科中定義為一種知識庫,可以通過收集多種來源的信息來優化搜索引擎的結果。當前,很多公司正在構建知識圖譜以支持多任務和功能。然而,現有的99%的“知識圖譜”實際上是沒有知識的數據圖譜 (data graph)。


舉個栗子:“Bob and I were high-school classmates, and I will invite him for a dinner to celebrate our 25th year class reunion in 2020” 如果在圖中不能識別出“他”是誰並且不能提供任何關於他們高中畢業的時間信息,這個圖便僅是數據圖譜。


知識圖譜 (knowledge graph) 是一種語義圖譜 (semantic graph),用於描述物理世界中的概念及其關係,它包含三個基本組成部分:


1、概念 (concepts)。

舉個栗子: 概念可以是實體(如“人”)、屬性(如“年齡”)或事實(如“有四扇門的紅色汽車”),用節點表示。


2、關係 (relations)。關係是兩個節點之間帶有語義標籤的連接。

舉個栗子:“是一個”、“有一個”或動作(如“成為”)。


3、與概念和關係相關的背景知識 (background knowledge about concepts and relations)。概念可以具有不同的名稱。

舉個栗子: Professor X. Wu和Dr. Xindong Wu,以及可能具有的多個屬性,如身高和職業。關係可以具有不同的表現,如“從前有”、“現在一個人有”和“現在多個人有”。以詞典或本體存在的背景知識可以在語義上連接不同的名稱、屬性和表現。


數據圖譜沒有關於節點或關係的背景知識,是僅僅具有點和連線的圖。知識圖譜的兩個基本結構是“實體-關係-實體”(entity-relation -entity)三元組和“實體-屬性”(entity-attribute)對。在這兩種結構中,實體通過它們之間的關係連接在一起,從而形成圖結構的知識庫。所以,知識圖譜是關係的一種有效表達方法,它用圖的形式描繪現實世界。


例如,下圖便是展示了宮崎駿作品 “考慮了相關背景知識” 的知識圖譜。


一萬美元獎金怎麼拿到手?詳述ICDM知識圖譜競賽,2020年仍有機會

圖2. 宮崎駿作品知識圖譜 [來源於明略科技HAO圖譜系統]

3、比賽比什麼?


一萬美元獎金怎麼拿到手?詳述ICDM知識圖譜競賽,2020年仍有機會

圖3. 比賽流程

此次競賽(首屆 IEEE ICDM/ICBK 知識圖譜競賽)的目的是生成一種知識圖譜,以模擬人類在閱讀一段文字時的思維模式。這裡“人類”被假定為該段素材的人類閱讀者。最終的比賽結果由專家評判。鑑於不同的專家不可避免地會關注文本的不同組成部分,其評判結果具有一定的主觀性,為了確保競賽結果的客觀性,每一個競賽作品均由兩名專家進行評審。最終的入圍名單由組委會在檢查完每一個團隊提交的所有打包材料之後決定。


1)比賽數據設計及要求


每個參賽團隊在競賽組委會收集的同一個數據集上進行方法測試。該數據集包含300篇已經發表的新聞文章,這些文章分別涉及四個不同的行業:汽車工程、化妝品、公共安全和餐飲服務。每篇文章有150-250個字,包含8-20個實體。並且,每篇文章由該領域專家整體審核,確保了文章內容的多樣性和深度並保證了每篇文章用詞合理,使其既不會過於正式也不過於貧乏。來自上述四個領域的多位專家事先對300篇文章中的120篇進行人工標註。專家對同義詞進行分組標註形成該組文章的同義詞詞典,進而手動標註出兩個實體詞之間的語義關係。


在線上評估階段,首先,根據同義詞詞典,將提交的每個實體詞替換為同義詞集標籤;然後,將每篇文章中提到的實體詞標籤與專家事先標註的標籤進行對比。最後,每篇文章的容錯標準由制定標籤的行業專家確定。


每個團隊需建立模型,以一篇文章作為輸入並輸出相應圖譜。具體的規定如下:節點必須是文章中的實體詞或短語;連接邊必須是實體之間的關係詞或短語;節點必須由原文中的單詞或短語表示;合併單詞的同義詞。NLP相關會議在過去幾年舉行過類似的競賽,這些競賽是用開放文本構建知識圖譜並事先給出了實體和/或關係的預定義架構,以便隨後通過信息抽取模型提取信息。本次競賽的新穎之處在於,沒有預先為實體或關係設定任何類型的架構。


2)具體比賽流程及評分標準


在第一階段,每個團隊提交按行業劃分的三元組,然後與專家標記的三元組進行比較 (數據集是300篇文章中的120篇)。每個團隊的得分是通過計算所有行業得分的均值獲得。具體而言,利用NetworkX[6]測算各個團隊從文本中生成的圖譜與兩個行業專家標記的圖譜之間的距離,距離越小的團隊生成的圖譜更接近實際。為了進一步增強比賽結果的客觀性,各個團隊提交文件中的實體詞被行業專家標記的同義詞詞典中的單詞替換。若提交內容與專家標記相同則獲得“最高分”0,提交空文件的得分約為17.51。


在第二階段,8個團隊需分別開發一個Web應用程序,該程序以一小段文本作為輸入並輸出知識圖譜。每個團隊提交的Web應用程序由12位學者組成的小組評分。具體而言,根據評分標準,團隊構建的圖譜質量佔比60%,Web設計佔比20%,剩餘的20%分配給團隊構建網站的魯棒性。


4、知識圖譜構建的關鍵技術


知識圖譜構建的過程一般包含三個部分:信息抽取 (information extraction)、知識融合(knowledge fusion)和知識處理 (knowledge processing)。


本次競賽只包括信息抽取和知識融合。信息抽取的目的是識別和分離數據源中的實體、實體的屬性和實體間的關係。因此,信息抽取這一過程中並沒有直接輸出實際的“知識”。信息抽取涉及到的兩項關鍵技術包括實體識別 (entity recognition)和關係抽取 (relation extraction)。此外,共指消解 (co-reference resolution) 會運用於知識融合中。


一萬美元獎金怎麼拿到手?詳述ICDM知識圖譜競賽,2020年仍有機會

圖4. 知識圖譜構建流程



1)實體識別


實體抽取,又被稱為命名實體識別 (Named Entity Recognition, NER),是指從數據 (尤指文本數據)中準確識別出命名實體的過程[7]。具體包含三個類別:實體類 (如人名、地名和機構名),時間類 (如日期和時間) 和數據類 (如貨幣和百分數)[8]。這些類別可以進行擴展以適應特定的應用領域。


一萬美元獎金怎麼拿到手?詳述ICDM知識圖譜競賽,2020年仍有機會

圖5. NER 示例 [Source:網絡]

NER技術已經從基於規則的方法 (rule-based method) 過渡到統計方法 (statistical approach),具體而言包含以下範例:


1)基於規則的方法:在早期的NER研究中,特別是在消息理解系列會議(Message Understanding Conference, MUC)中, 大多數主流的NER方法背後的基本思想是手動構建一組有限的規則,然後在文本中搜索與這些規則匹配的字符串。


2)基於機器學習的方法:基於機器學習的NER研究大致可以分為三個主題:模型和方法的選擇,模型和方法的改進以及特徵的選擇。


3)基於深度學習的方法:深度學習技術在近年來已成為機器學習領域一個新的研究熱點,與許多其他領域一樣,深度學習技術已經成功的解決了一些NER問題。詞向量表示 (word vector representation) 為解決NER序列化標記問題提供了支撐。Cherry 和Guo[9]提出了使用詞向量表示特徵的最簡單且最高效的方法。Godin等[10]提出了帶有NER的Twitter推文的分佈式詞表示。近期,Arora等[11]提出了一種神經-半馬爾科夫結構支持向量機模型,該模型通過在訓練過程中給loss-augmented inference 過程中不同類型的錯誤分配權重來保持精度和召回率之間的平衡。


本次競賽的獲勝團隊使用了多種方法進行實體識別。


Team UWA使用NLP工具SpaCy[12]對帶有相同詞性 (Part-Of-Speech, POS) 的標籤以及根據預定義規則抽取的成塊名詞和動詞短語進行分類。名詞塊(noun chunk)被定義為描述名詞的詞。動詞塊 (verbal chunk) 是動詞及其周圍的介詞和助詞[13]。在可視化步驟中,名詞組被分配到與被SpaCy識別出最相似實體相同的類別中,並且節點用顏色標記。


Team Tmail使用 Stanford OpenIE 工具包[14]、OpenIE 5.0[15]和SpaCy[12]提取命名實體並從OpenIE工具箱修改的數據中將這些實體改成原始詞。


Team BUPT-IBL使用了自主開發的模型SC-LSTM[16],另外還使用了Stanford CoreNLP[14]和SpaCy[12]。為了使用兩個抽取模型以消除冗餘實體,該團隊設計了一個字符串匹配規則。


Team MIDAS-IIITD使用了NLTK[17]和SpaCy[12]進行預處理。該團隊也使用NLP工具包[18]將句子拆分為成塊的短語並從中選擇部分構建輸出三元組。


Team Lab1105使用了SpaCy[12]。另外,該團隊在CoNLL 2003 NER數據集[19]中訓練了BiLSTM + CRF模型,該模型包含四種類型的實體:人 (PER)、組織 (ORG)、位置 (LOC)和其他名稱 (MISC)。


2)關係抽取


通過信息抽取獲得圖形中的實體 (節點) 後,下一步就是對構建連接邊所需的關係進行抽取。


關係抽取與實體抽取方法類似,其早期主要工作都基於規則。基於規則方法的研究進展有限,但是自從將監督學習運用於關係抽取之後,該研究取得了較大進展。由於監督學習需要大量手工標記的樣本,人工成本高,所以研究者們近期開發了半監督、無監督和自我監督的方法以減少對標籤的需求。儘管這些方法已經在模型通用性方面取得了一些進展,但是自然語言非常複雜,關係抽取問題還遠遠沒有被解決。下面是關係抽取的主要學習方法的概述[20]。

一萬美元獎金怎麼拿到手?詳述ICDM知識圖譜競賽,2020年仍有機會

圖6. 關係挖掘 (relationship extraction) 示例 [Source:網絡]


1)監督學習 (supervised learning): 監督學習體現了對人類標註數據進行分類的思想。這些方法一旦經過訓練就可以通過匹配和抽取特定關係進行識別實體。用於關係抽取的監督學習可以分為兩大類:基於特徵向量的方法 (feature vector-based methods) 和基於核的方法 (kernel-based methods)。


2)半監督學習 (semi-supervised learning): 大多數半監督學習與上述監督學習相比具有兩個額外的步驟。首先是預設定一些關係類型。其次,將適當的實體對作為種子合併到訓練集中。這些方法減輕了對大量標籤的依賴。


3)領域獨立 (domain-independent learning):領域獨立放寬了對域規範的需求,這意味著這些方法易於擴展,可以應用於多個領域。一些研究人員已經合併了外部知識庫,如Wikipedia,以補充各自的方法[21]。Bank[22]提出了公開信息抽取的框架和抽取模型TextRunner,並由Fader[23]和Schmitz[24]提高TextRunner的性能。這些方法假定每對實體具有已知關係,並使用上下文信息構造實體的特徵表示。


4)遠程監督 (distant-supervised methods):遠程監督[25],[26]通過將非結構化文本與知識庫匹配,從而自動生成大量的訓練數據。Mintz等[27]嘗試將遠程監督納入文本處理中,以通過語料和文本匹配來自動生成訓練樣本,從而提取特徵訓練分類器。Ji等[28]提出了句子級模型 (sentence-level model),該模型可以選擇有效實例並充分利用知識庫中的監督信息。


5)深度學習 (deep learning):深度學習在自然語言處理 (natural language processing, NLP)和圖形識別方面已得到廣泛應用,由此激發了研究者將此方法用於解決關係抽取問題。深度網絡的架構有多種形式,如遞歸神經網絡 (recurrent neural networks, RNNs)[29]、卷積神經網絡(convolutional neural networks, CNNs)[30]、CNNs和RNNs組合[31],[32]以及長短期記憶 (long short-term memories, LSTMs)[33]。


競賽獲獎者使用的不同關係抽取方法的總結如下:


Team UWA通過在句子中抽取諸如動詞、介詞和後置詞之類的關係詞,然後將每個關係短語與其左、右實體相結合以形成三元組,從而將實體映射成對。圖譜由每篇文章構建而成,用於查找分佈在多個句子中的關係同時通過刪除帶有停用詞 (stop words) 的實體來過濾三元組。該團隊運用預先訓練好的基於注意力 (attention-based) 的Bi-LSTM模型[33]顯示關係名稱,從而達到圖形可視化的目的。


Team Tmail使用Stanford OpenIE工具包[14]和OpenIE[15]進行關係抽取。由於該團隊在命名實體識別和關係抽取中使用了多個模型,所以他們定義了一些手寫規則以減少冗餘的三元組數量,如刪除實體短語中的停用詞('an','the','it')、或使用SpaCy[12]定位名詞塊併合並具有相同名詞塊的實體。


Team BUPT-IBL主要使用Stanford OpenIE工具包[14],並基於語法樹設計了一個模型來抽取更多的三元組,從而顯著提高其模型的性能。


Team MIDAS-IIITD設計了手寫規則,以基於實體塊的POS標籤獲得三元組。


Team Lab1105使用了SpaCy[12], 並設計了一系列基於主語、賓語、謂語和介詞的手寫規則以提取三元組。


3)共指消解


共指消解 (co-reference) 或實體解析 (entity resolution) 用於知識庫中的一個實體鏈接到多個實體引用的情況中。例如,“President Trump”和“Donald John Trump”是同一個人,因此在這兩個實體引用鏈接到知識庫中的一個實體之前,應將其合併。


一萬美元獎金怎麼拿到手?詳述ICDM知識圖譜競賽,2020年仍有機會

圖7. 共指消解 (co-reference) 示例 [Source:網絡]


實體解析的解決方案近年來大都基於最新的機器學習方法。McCarthy等[34],[35]將實體解析轉換為分類問題,並使用決策樹算法對其求解。Bilenko等[36-38]將實體解析轉換為聚類問題,並訓練分類器來識別重複對。術語相似度[39]和查詢上下文相似度[40]能克服數據稀疏性並能在不同文本背景的實體之間建立關聯。本次競賽的五個獲勝團隊中有四個 (UWA,BUPT-IBL,MIDAS-IIITD和Lab1105)使用NeuralCoref [41]進行實體解析。


5、案例 Showcases


表 I 中列出了5個獲勝團隊。

一萬美元獎金怎麼拿到手?詳述ICDM知識圖譜競賽,2020年仍有機會


每個團隊根據以下文本生成的知識圖譜:


“BYD debuted its E-SEED GT concept car and Song Pro SUV alongside its all-new e-series models at the Shanghai International Automobile Industry Exhibition. The company also showcased its latest Dynasty series of vehicles, which were recently unveiled at the company’s spring product launch in Beijing.”


1)Team UWA


Team UWA 在其Web應用程序中對上述示例文本構建的知識圖譜如下圖所示。該團隊的模型成功抽取了所有的實體和關係,並正確地將第二句中的第一個‘company’和第一句中的‘ BYD’識別為同一實體。但是它沒有將第一個句子中的‘BYD’與第二句中的第二個‘company’鏈接為同一實體,這可能由兩個短語之間的距離較大所致。


一萬美元獎金怎麼拿到手?詳述ICDM知識圖譜競賽,2020年仍有機會

圖8. Team UWA 構建示例文本的知識圖譜

2)Team Tmail


Team Tmail生成的圖譜如下圖所示。該團隊已經成功識別大多數實體,並正確鏈接。然而,他們的模型中並未完全過濾重複的三元組(如,‘Song’和‘ Song Pro SUV’),也未識別出語義上屬於同一實體的詞組(如,‘ BYD’和‘company’)。


一萬美元獎金怎麼拿到手?詳述ICDM知識圖譜競賽,2020年仍有機會

圖9. Team Tmail 構建示例文本的知識圖譜


3)BUPT-IBL


Team BUPT-IBL的結果如下圖所示。該團隊識別出大多數實體,並在共指消解方面做得很好。但有些三元組的提取並未遵從原文的文意(如,E-SEED GT concept car, debuted, BYDs spring product launch)。


一萬美元獎金怎麼拿到手?詳述ICDM知識圖譜競賽,2020年仍有機會

圖10. Team BUPT-IBL 構建示例文本的知識圖譜


4)MIDAS-IIITD


Team MIDAS-IIITD產生的知識圖譜如下圖所示。該模型成功抽取了一些實體和關係,但未能將‘company’與‘BYD’關聯起來。


一萬美元獎金怎麼拿到手?詳述ICDM知識圖譜競賽,2020年仍有機會

圖11. Team MIDAS-IIITD 構建示例文本的知識圖譜

5)Lab1105


Team Lab1105生成的知識圖譜如下圖所示。該團隊正確的抽取大多數實體並使其正確相互鏈接。然而,該團隊在實體識別前後兩次應用了共指消解,從而用實體術語代替了所有格代詞,併為某些實體添加了多餘的術語。此外,該團的模型也需得到進一步改進,以將‘BYD’ ‘the company’鏈接起來。


一萬美元獎金怎麼拿到手?詳述ICDM知識圖譜競賽,2020年仍有機會

圖12. Team Lab1105 構建示例文本的知識圖譜


參考文獻

[1] C. Xiong, R. Power, and J. Callan, “Explicit semantic ranking for academic search via knowledge graph embedding,” in Proc. WWW, 2017, pp. 1271–1279.

[2] Z. Sun, J. Yang, J. Zhang, A. Bozzon, L.-K. Huang, and C. Xu, “Recurrent knowledge graph embedding for effective recommendation,” in Proc. ACM RecSys, 2018, pp. 297–305.

[3] Y. Zhang, H. Dai, Z. Kozareva, A. J. Smola, and L. Song, “Variational reasoning for question answering with knowledge graph,” in Proc. AAAI, 2018.

[4] D. Vrandeˇci´c and M. Kr¨otzsch, “Wikidata: a free collaborative knowledge base,” Communications of the Acm, vol. 57, no. 10, pp. 78–85, 2014.

[5] Q. Liu, Y. Li, H. Duan, Y. Liu, and Z. Qin, “Knowledge graph construction techniques,” Journal of Computer Research and Development, vol. 53, no. 3, pp. 582–600, 2016.

[6] D. A. S. Aric A. Hagberg and P. J. Swart, “Exploring network structure, dynamics, and function using networkx,” in Proc. SciPy, 2008.

[7] D. Nadeau and S. Sekine, “A survey of named entity recognition and classification,” Lingvisticae Investigationes, vol. 30, no. 1, pp. 3–26, 2007.

[8] L. Liu and D. Wang, “A review on named entity recognition,” Journal of the China Society for Scientific and Technical Information, vol. 37, no. 3, p. 329, 2018.

[9] C. Cherry and H. Guo, “The unreasonable effectiveness of word representations for twitter named entity recognition,” in Proc. NAACL, 2015, pp. 735–745.

[10] F. Godin, B. Vandersmissen, W. De Neve, and R. Van de Walle, “Multimedia lab@ acl wnut ner shared task: Named entity recognition for twitter microposts using distributed word representations,” in Proc. EMNLP-WNUT, 2015, pp. 146–153.

[11] R. Arora, C. Tsai, K. Tsereteli, P. Kambadur, and Y. Yang, “A semimarkov structured support vector machine model for high-precision named entity recognition,” in Proc. ACL, 2019, pp. 5862–5866.

[12] M. Honnibal and I. Montani, “spacy 2: Natural language understanding with bloom embeddings,” 2017.

[13] M. Stewart, M. Enkhsaikhan, and W. Liu, “Icdm 2019 knowledge graph contest: Team uwa,” in Proc. ICDM, 2019.

[14] C. D. Manning, M. Surdeanu, J. Bauer, J. R. Finkel, S. Bethard, and D. McClosky, “The stanford corenlp natural language processing toolkit,” in Proc. ACL, 2014, pp. 55–60.

[15] S. Saha and M. Mausam, “Open information extraction from conjunctive sentences,” in Proc. COLING, 2018, pp. 2288–2299.

[16] P. Lu, T. Bai, and P. Langlais, “Sc-lstm: Learning task-specific representations in multi-task learning for sequence labeling,” in Proc. NAACL, 2019, pp. 2396–2406.

[17] S. Bird, E. Klein, and E. Loper, Natural language processing with Python: analyzing text with the natural language toolkit.” O’ReillyMedia, Inc.”, 2009.

[18] A. Akbik, D. Blythe, and R. Vollgraf, “Contextual string embeddings for sequence labeling,” in Proc. COLING, 2018, pp. 1638–1649.

[19] E. F. Tjong Kim Sang and F. De Meulder, “Introduction to the conll-2003 shared task: Language-independent named entity recognition,” in

Proc. CoNLL, 2003, pp. 142–147.

[20] D. Xie and Q. Chang, “Review of relation extraction,” Application Research of Computers, vol. 37, no. 7, pp. 1–5, 2019.

[21] F. Wu and D. S. Weld, “Open information extraction using wikipedia,” in Proc. ACL, 2010, pp. 118–127.

[22] M. Banko, M. J. Cafarella, S. Soderland, M. Broadhead, and O. Etzioni, “Open information extraction from the web,” in Proc. Ijcai, vol. 7, 2007, pp. 2670–2676.

[23] A. Fader, S. Soderland, and O. Etzioni, “Identifying relations for open information extraction,” in Proc. EMNLP, 2011, pp. 1535–1545.

[24] M. Schmitz, R. Bart, S. Soderland, O. Etzioni et al., “Open language learning for information extraction,” in Proc. EMNLP-CoNLL, 2012, pp. 523–534.

[25] M. Surdeanu, J. Tibshirani, R. Nallapati, and C. D. Manning, “Multi-instance multi-label learning for relation extraction,” in Proc. EMNLPCoNLL, 2012, pp. 455–465.

[26] C. Quirk and H. Poon, “Distant supervision for relation extraction beyond the sentence boundary,” arXiv preprint arXiv:1609.04873, 2016.

[27] M. Mintz, S. Bills, R. Snow, and D. Jurafsky, “Distant supervision for relation extraction without labeled data,” in Proc. ACL-IJCNLP, 2009, pp. 1003–1011.

[28] G. Ji, K. Liu, S. He, and J. Zhao, “Distant supervision for relation extraction with sentence-level attention and entity descriptions,” in Proc. AAAI, 2017.

[29] R. Socher, B. Huval, C. D. Manning, and A. Y. Ng, “Semantic compositionality through recursive matrix-vector spaces,” in Proc. EMNLPCoNLL, 2012, pp. 1201–1211.

[30] Y. Lin, S. Shen, Z. Liu, H. Luan, and M. Sun, “Neural relation extraction with selective attention over instances,” in Proc. ACL, 2016, pp. 2124–2133.

[31] X. Guo, H. Zhang, H. Yang, L. Xu, and Z. Ye, “A single attention-based combination of cnn and rnn for relation classification,” IEEE Access, vol. 7, pp. 12 467–12 475, 2019.

[32] V.-H. Tran, V.-T. Phi, H. Shindo, and Y. Matsumoto, “Relation classification using segment-level attention-based CNN and dependency-based RNN,” in Proc. NAACL, 2019, pp. 2793–2798.

[33] P. Zhou, W. Shi, J. Tian, Z. Qi, B. Li, H. Hao, and B. Xu, “Attentionbased bidirectional long short-term memory networks for relation classification,” in Proc. ACL, 2016.

[34] J. F. McCarthy and W. G. Lehnert, “Using decision trees for coreference resolution,” arXiv preprint cmp-lg/9505043, 1995.

[35] D. Bean and E. Riloff, “Unsupervised learning of contextual role knowledge for coreference resolution,” in Proc. HLT-NAACL, 2004, pp. 297–304.

[36] M. Bilenko and R. J. Mooney, “Adaptive duplicate detection using learnable string similarity measures,” in Proc. KDD, 2003, pp. 39–48.

[37] P. Christen, “Febrl: a freely available record linkage system with a graphical user interface,” in Proc. HDKM, 2008, pp. 17–25.

[38] T. Cheng, H.W. Lauw, and S. Paparizos, “Entity synonyms for structured web search,” IEEE Transactions on Knowledge and Data Engineering, vol. 24, no. 10, pp. 1862–1875, 2011.

[39] P. Pantel, E. Crestan, A. Borkovsky, A.-M. Popescu, and V. Vyas, “Webscale distributional similarity and entity set expansion,” in Proc. EMNLP, 2009, pp. 938–947.

[40] K. Chakrabarti, S. Chaudhuri, T. Cheng, and D. Xin, “A framework for robust discovery of entity synonyms,” in Proc. KDD, 2012, pp. 1384–1392.

[41] T. Wolf, “Neuralcoref 4.0: Coreference resolution in spacy with neural networks.” 2017.


分享到:


相關文章: