華為雲奪得WSDM Cup 2020大賽金牌,參賽方案全解讀


近日,在美國休斯敦閉幕的第13屆網絡搜索與數據挖掘國際會議(WSDM 2020)上,華為雲語音語義創新Lab帶領來自華南理工大學、華中科技大學、江南大學、武漢大學學生組成的聯合團隊,摘得WSDM Cup 2020大賽“論文引用意圖識別任務”金牌(Gold Medal)。

WSDM被譽為全球信息檢索領域最有影響力也最權威的會議之一,會議關注社交網絡上的搜索與數據挖掘,尤其關注搜索與數據挖掘模型、算法設計與分析、產業應用和提升準確性與效果的實驗分析。今年已經是WSDM的第十三屆會議。

本文將詳細介紹本次獲獎的解決方案。文章轉載自華為雲社區

1、背景

幾個世紀以來,社會技術進步的關鍵在於科學家之間坦誠的學術交流。新發現和新理論在已發表的文章中公開分發和討論,有影響力的貢獻則通常被研究界以引文的形式認可。然而,隨著科研經費申請競爭日趨激烈,越來越多的人把學術研究當成一種資源爭奪的手段,而不是單純為了推動知識進步。部分期刊作者“被迫”在特定期刊中引用相關文章,以提高期刊的影響因子,而論文審稿人也只能增加期刊的引用次數或h指數。這些行為是對科學家和技術人員所要求的最高誠信的冒犯,如果放任這種情況發展,可能會破壞公眾的信任並阻礙科學技術的未來發展。因此,本次WSDM Cup 2020賽題之一將重點放在識別作者的引文意圖:要求參賽者開發一種系統,該系統可以識別學術文章中給定段落的引文意圖並檢索相關內容。

華為雲語音語義創新Lab在自然語言處理領域有著全棧的技術積累,包括自然語言處理基礎中的分詞、句法解析,自然語言理解中的情感分析、文本分類、語義匹配,自然語言生成,對話機器人,知識圖譜等領域。其中和本次比賽最相關的技術是語義匹配技術。Xiong團隊通過對賽題任務進行分析,針對該問題制定了一種“整體召回+重排+集成”的方案,該方案以輕量化的文本相似度計算方法(如BM25等)對文章進行召回,然後基於深度學習的預訓練語言模型BERT等進行重排,最後通過模型融合進行集成。

2、賽題介紹

本次比賽將提供一個論文庫(約含80萬篇論文),同時提供對論文的描述段落,來自論文中對同類研究的介紹。參賽選手需要為描述段落匹配三篇最相關的論文。

例子:

描述:

An efficient implementation based on BERT [1] and graph neural network (GNN) [2] is introduced.

[1] BERT: Pre-training of deep bidirectional transformers for language understanding.[2] Relational inductive biases, deep learning, and graph networks.

評測方案:

華為雲奪得WSDM Cup 2020大賽金牌,參賽方案全解讀

3、數據分析

本次賽題共給出80多萬條候選論文,6萬多條訓練樣本和3萬多條本測試樣本,候選論文包含paper_id,title,abstract,journal,keyword,year這六個字段的信息,訓練樣本包含description_id,paper_id,description_text這三個字段的信息,而測試數據則給出description_id和description_text兩個字段,需要匹配出相應的paper_id。

華為雲奪得WSDM Cup 2020大賽金牌,參賽方案全解讀

我們對數據中候選論文的title,abstract以及描述文本的長度做了一些統計分析,如圖1所示,從圖中我們可以看到文本長度都比較長,並且針對我們後續的單模型,我們將模型最大長度從300增加到512後,性能提升了大約1%。

圖1 候選論文的Title(a),Abstract(b)以及描述文本(c)的長度分佈

4、整體方案

我們方案的整體架構如圖2所示,整體方案分為四個部分:數據處理,候選論文的召回,候選論文的重排以及模型融合。

華為雲奪得WSDM Cup 2020大賽金牌,參賽方案全解讀

圖2 整體方案架構(部分圖引自[5])

4.1 數據處理

通過觀察數據我們發現,在標題給出的描述語句中,有許多相同的描述文本,但是參考標記的位置卻不同。也就是說,在同一篇文章中,不同的句子引用了不同的論文。為此,我們抽取句子中引用標記位置處的語句作為新的描述語句生成候選集。

如表1所示,我們選取描述中[[**##**]]之前的句子作為描述關鍵句。

華為雲奪得WSDM Cup 2020大賽金牌,參賽方案全解讀

表1 描述關鍵句生成

4.2候選論文召回

如圖3所示,我們運用BM25和TF-IDF來進行論文的召回,選取BM25召回的前80篇論文和TF-IDF召回的前20篇論文構成並集組成最終的召回論文。

華為雲奪得WSDM Cup 2020大賽金牌,參賽方案全解讀

圖3 召回示意圖

4.3候選論文重排

在本方案中,我們用BERT模型作為基礎模型,BERT是一種能在基於查詢的文章重排任務中取得良好性能的語義表示模型。通過觀察數據發現,論文主要數據生物醫學領域,於是我們聚焦到採用生物醫學領域數據訓練預訓練模型。然後將查詢與描述字段以句子對的形式輸入進BERT模型進行訓練。我們的實驗表明,在該任務上,單個的BioBERT的性能要比BERT性能高5個百分點。如圖4為BioBERT的結構圖。

華為雲奪得WSDM Cup 2020大賽金牌,參賽方案全解讀

圖4 BioBERT結構圖 (圖引自[6])

4.4 模型融合

在模型融合的過程中,我們運用了6種共9個經過科學和生物醫藥語料庫訓練的預訓練模型分別為:BioBERT_v1.1* 3, BioBERT_v1.0_PubMed_PMC * 2, BioBERT_v1.0_PubMed* 1,BioBERT_v1.0_PMC * 1, BioBERT_dish*1,SciBERT* 1。他們的單模型在該任務中的性能如表2所示。

華為雲奪得WSDM Cup 2020大賽金牌,參賽方案全解讀

表2 單模型性能

然後我們對單模型輸出的概率結果進行blending操作如圖5所示,得到最後的模型結果,其比最好的單模型結果提升了1個百分點左右。

華為雲奪得WSDM Cup 2020大賽金牌,參賽方案全解讀

圖5 模型融合

5、總結與展望

本文主要對比賽中所使用的關鍵技術進行了介紹,如數據處理,候選論文的召回與重排,模型融合等。在比賽中使用專有領域訓練後的預訓練模型較通用領域預訓練模型效果有較大的提升。由於比賽時間的限制,許多方法還沒來得及試驗,比如在比賽中由於正負樣本不平衡,導致模型訓練結果不理想,可以合理的使用上採樣或下采樣來使樣本達到相對平衡,提升模型訓練效果。

參考文獻

[1] Yang W, Zhang H, Lin J. Simple applications of BERT for ad hoc document

retrieval[J]. arXiv preprint arXiv:1903.10972, 2019.

[2] Gupta V, Chinnakotla M, Shrivastava M. Retrieve and re-rank: A simple and

effective IR approach to simple question answering over knowledge

graphs[C]//Proceedings of the First Workshop on Fact Extraction and

VERification (FEVER). 2018: 22-27.

[3] Peters M E, Neumann M, Iyyer M, et al. Deep contextualized word

representations[J]. arXiv preprint arXiv:1802.05365, 2018.

[4] Radford A, Wu J, Child R, et al. Language models are unsupervised multitask

learners[J]. OpenAI Blog, 2019, 1(8): 9.

[5] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. (2018)

BERT: Pre-training of Deep Bidirectional Transformers for Language

Understanding. arXiv preprint arXiv:1810.04805,.

[6] Jinhyuk Lee, Wonjin Yoon, Sungdong Kim, Donghyeon Kim, Sunkyu Kim,

Chan Ho So, Jaewoo Kang,(2019) BioBERT: a pre-trained biomedical language

representation model for biomedical text mining, Bioinformatics,

[7] Iz Beltagy, Kyle Lo, Arman Cohan. (2019) SciBERT: A Pretrained Language

Model for Scientific Text, arXiv preprint arXiv:1903.10676SciBERT: A

Pretrained Language Model for Scientific Text, arXiv preprint arXiv:1903.10676,

2019.

[8] Nogueira R, Cho K.(2019) Passage Re-ranking with BERT. arXiv preprint

arXiv:1901.04085.

[9] Alsentzer E, Murphy J R, Boag W, et al. Publicly available clinical BERT

embeddings[J]. arXiv preprint arXiv:1904.03323, 2019.


分享到:


相關文章: