中科院博士 李晶陽:《NLP在汽車及金融領域的若干應用》

中科院博士 李晶陽:《NLP在汽車及金融領域的若干應用》


9月15日FMI-2018人工智能與大數據高峰論壇圓滿落幕,李晶陽博士就NLP在汽車及金融領域的若干應用進行了深入的分享。

飛馬網將其內容整理如下:

大家好。我今天給大家帶來報告的題目是NLP在汽車及金融領域若干應用介紹,希望給大家有所啟發。首先我們來看一下什麼叫做自然語言處理,自然語言處理包括三個部分,第一部分是語言,然後是自然語言,還有自然語言的處理。語言溝通的方式,傳遞我們所希望傳遞的信息或者含義,其實語言是一個很深刻的話題,有些人說自然語言處理是人工智能最重要的環節,或者是皇冠上的明珠,即便在圖像裡面最後也會到語言上,比如圖象檢測分割,你可以把它檢測分割出來,但是我們最終希望得到的是圖片裡一些結構性的信息,比如我希望知道這個車是幾個門,從裡面出來的是誰,做了什麼事兒,通過圖像語言轉化成文本語言,之後推理出來這個圖片所要傳遞出來真正語言的內容。

自然語言也有一個定義,我們人和人溝通的話,這個話有很長的歷史,有他自己的一套習慣或者規則,但是本質上來講,人的語言沒有任何規則,我們所謂的主謂賓都是人總結出來的。而自然語言處理是相對編程語言說的,像Java、C++,這是人預定好編程規則,如果不按照規則寫程序會報錯,但是人可以隨便說,沒有任何規則,只要對方能聽懂就可以,這是自然語言處理的難點,人的語言並沒有固定的規則。

什麼叫自然語言處理?目的是希望計算機理解人的語言,進而能夠幫助人和人進行溝通,所以說自然語言處理就分為兩個部分,一個是自然語言的理解,還有自然語言的生成,我們希望計算機理解我們說的話,詞級別、句子級別,篇章段落級別的。當他理解後希望他將信息抽取出來,以更有意義的方式重新表達出來,這樣促進人和人之間更加有效的溝通。

下面大概的介紹一下自然語言處理相關技術,這一波機器學習火熱之前,人們主要是基於規則的,或者叫專家系統,包括我們講的算法,機器學習也好,都是有一些輸入的數據,推動一些規則有一個輸出,起初人們覺得我就是把這個程序寫進去,告訴機器輸入進去輸出應該是什麼,這是一個規則匹配或者專家系統,這個時候人們說可不可以通過這個機器的輸入輸出讓他自己發現這個規則應該是什麼,這是我們經常講的機器學習,希望他自己能夠學習出來這個輸入和輸出之間在統計和分佈上應該有什麼樣的規律和規則。

包括監督學習和無監督學習,還有在自然語言處理方面很關鍵的系列化的模型,Markov模型,現在在機器學習裡的深度學習,這屬於機器學習的一種。深度學習是基於連接主義的想法,包括雙向LSTM,強化學習,都在NLP領域都有很多應用。前沿的模型和比較傳統的方法結合的時候它的性能更好,利用分詞和實體識別,它的性能比這兩個單拎出來的效果好。也包括卷積神經網絡,可以利用一些語言模型,之後在這個上面做一些卷積類的網絡,之後進行文本的分類或者別的應用。

還有對抗網絡和強化學習自然語言都有應用,對抗網絡可以生成訓練模型所使用的互聯網絡,起初人們訓練推理模型的時候可能手動構造一些負樣本,比如今天李晶陽在這裡做報告,他又構造一個負樣本,在另外一個地方也做報告,在這些負樣本的基礎上訓練它的模型,性能上有很多提升。還有強化學習。

在這些很基礎的機器學習算法的基礎之上,有自然語言處理本身需要的基礎技術包括次級別的分詞、詞性標註、詞向量、命名實體識別,還有句子識別的,句法分析,句子生成、摘要抽取等等。再往上可以提供很多應用技術,比如信息抽取,檢索、比較大的輿情分析,文本分類,情感分析,翻譯問答知識圖譜文摘,語音識別。有了這些應用基礎之後可以對外提供很多服務,包括社交和問答系統以及推薦系統,還有搜索引擎、對話系統。這是我個人理解的自然語言處理的框架。

接下來看一些比較簡單的應用,首先看信息抽取,主要是以汽車領域為例子來介紹,汽車領域跟其他領域都一樣,包括汽車的廠商和消費者,這樣一個消費行為的過程中有很多文本類的信息產生,比如這個消費者會評論這個車,車牌,車型,廠商也有一些新聞去刺激消費者消費。這個裡面我們常見的具有這樣一個標籤抽取的任務,用戶可以有一些評論,我們叫口碑,我們用自然語言處理技術通過口碑裡抽取出來核心表達的觀點,比如乘坐空間夠用,其實是從下面句子裡抽取出來的,空間夠大,空間非常大這些詞。

抽取出來之後可以進行數據的整合,整合完之後不僅僅可以更簡單的處理評論信息,也有助於汽車行業包括汽車公司對自身有一些評判。還有我們也關心用戶畫像,個性用戶畫像或者群體用戶畫像,我們關心客戶的基本屬性,金融,興趣愛好,還有社交網絡行為特徵,我們通過文本的信息也可以抽取出來其中維度的屬性。

首先來看看這個標籤抽取的技術,首先是數據採集層,不僅僅包括口碑的數據,而且包括一些比較泛的論壇的數據,還有一些互聯網的數據,甚至包括第三方的數據。有了這些數據之後,對他們進行預處理和文本分層,一層語法分析,實體識別,當然你得對齊,之後進行情感的分析。這裡的情感分析要具體到各自的領域,有些垂直領域裡你做情感分析,方法也好結論也好都不太一樣,甚至最後還有一些詞典,你不能只是依靠這個詞來判定,你說高是好的,價格高不太好,性價比高是好的。最後抽取成非常簡單的句子的時候做情感分析有這個應用,最後是數據整合分析,最後展現出來在一般網頁的標籤抽取,對於消費者來說方便你察看那麼多的評論,可以用最簡單的方式找到需求點。同時一般正反標籤都有,可以讓你對這個產品有客觀評價,對於這個廠商來說可以以這樣的角度瞭解他自身的產品,同時你可以以不同的時間段抽取這樣的標籤,可以瞭解全行業,不僅僅你這個品牌的,同一個檔位所有車都拿過來做這個標籤抽取,可以瞭解全行業消費者觀點的變化,以及其他廠商提供的服務變化趨勢。

而且你可以根據消費者關注熱點的變化,有些一段時間評論這個比較多,那這個時候可以根據這些調整相關的服務。

這是用戶畫像的部分,這裡舉例子說興趣愛好的發現,這個就很重要了,我們可以做個性化的推薦,我們也可以做廣告的精準投放。以往的興趣愛好的發現,我們一般是基於LDA話題模型或者一些變形的算法去做,現在深度學習加上大數據可以做半監督的方法,比如我要做關於奧迪客戶的興趣愛好分析,我把所有的數據拿過來發現是什麼興趣,你要把無關的要刪掉。在汽車網站不僅僅有關於這個車型或者這個品牌特定的論壇,還有一些具體的興趣愛好的論壇,主題論壇,摩托車論壇,寵物論壇等等。在那些論壇裡發表的文本類的信息和評論,肯定是暗含著發表評論的人有這個興趣愛好,我們可以把這個數據收集過來,我們可以把這樣一個話題發現的模型變成一個多方面模型,當然是基於深度學習和大數據,數據夠多然後訓練出來這個模型。

接下來是自動問答,問答系統,我自己一般會想跟這個主流的檢索技術,比如搜索引擎有什麼區別,有幾個主要區別,第一,他的查詢方式是完整的而且口語化的,它可能在交付的時候有這樣一個自然語言解析的過程,而且問答過程回傳給我們的答案是精確的,不像搜索引擎返回頁面,從頁面裡自己推理找到答案。第三,找到自然語言的技術,包括問題解析問題分類甚至邏輯推理部分。在設計底層數據庫的時候可能涉及到本體論的問題。如果從知識領域上分可以分成兩個簡單的領域,封閉和開放,封閉到一個固定領域,比如汽車領域或者生物醫藥,還有開放領域,就是一些閒聊,天南地北都有。

從來源區別分為大型語料庫問答系統、網絡問答系統,單文問答系統,還有基於常見問題的問答系統,如果你有與業務相關的術語可以放在數據庫裡,當新問題進來之後可以與數據庫裡的問題進行匹配,如果數據庫裡有這個問題,可以將答案回傳給客戶。接下來看一個在汽車4S店售後某種意義上的FAQ。

汽車領域尤其在售後這一塊有很多文本數據,也有語音數據,我們將這些數據進行整合,整合4S店的維修數據,其實不僅僅包括維修師傅的日記和語音錄入,包括互聯網上也有很多群的分享,都有一些非結構化的文本,還有一些第三方數據,對這些數據進行整合之後可以提供維修策略的輔助,就是在做這個策略輔助,他不僅可以向客戶提供服務,4S店自己也可以用這樣的技術,這裡面舉個例子,比如這是從網上的數據源裡找到的例子,長安汽車排氣管放炮,這個問題的描述斷斷續續的,這是它的屬性,排氣管放炮是問題本身的描述,一是故障原因分析,二是整個檢修過程,在整個檢修過程裡,他查了很多東西,最後發現哪兒出了問題,紅線標出來了,發現問題之後怎麼解決的,第三是故障處理措施,所以這裡面有故障描述,真實原因和解決方式,我們將這些處理方式,原因故障都抽取出來之後可以放在數據庫裡,當然這個也可以基於圖做數據庫,也可以基於結構化數據庫,這取決於問題的複雜性,如果問題是複雜的,目前我們講的這個知識圖譜可能更善於做這個事情。

首先是要採集數據,包括維修師傅的日記,這是內部數據,還有互聯網上的數據,有了數據之後進行數據處理,這個數據處理不僅僅包括自然語言本身還有圖片類數據,還有語音類數據,有了數據之後還要進一步的清洗,要分析本體的構建,你要跟一些專業的人去溝通,決定我這個庫要怎麼設計,當然這個也取決於你最後跟用戶交互的時候,你這個系統能回答一些問題的類型,你可以定義這個本體,有了這個本體再去搭建數據庫。所以有時候人們也說這個知識庫的構建可以有字體向下也有字體向上的,如果有專家還是向上的方式構建,構建完了之後從文本里抽取關係,最後跟用戶進行交互的時候有問題解析的部分。

有了這個數據庫之後我們可以在上面進行推理或者貝葉斯推斷,目前做到推理還是比較簡單的。有了這些之後可以對外提供服務,自己也可以用,一些維修的輔助系統,甚至在線上做科普類系統,這是做的Demo,通過剛才的網頁提取出來的信息,這是包括右上角的,這個事件的描述一個這個事件真正的原因和處理方式。其實在這個過程裡,如果你想做更復雜的推斷需要更多問題的屬性,比如斷斷續續,他不是一直在放炮,還有在檢修過程中發現的現象,這些是根據你的需求,對於之後的邏輯推理效果更好。

接下來說一下輿情分析,這是很大的話題了,一個比較著名的應用案例是2009年的時候,用與谷歌相關的博客數據和推特數據預測谷歌的股票。中間這個是真實的谷歌,2009年5月11號到7月6號股票變化趨勢,左邊是博客,右邊是推特,左邊是長文右邊是短文的,那段時間是谷歌和微軟競爭,那個時候大量在網上有關這兩家公司的評論,他們正好拿出這個數據,而且基於這些評論的情感分析做對谷歌股票的估計,那個時候他們做情感分析比較簡單,基於形容詞人工標註分析,但是他生產形容詞的時候是基於自適應的方法,有了這個方法之後可以做預測,所以你可以看到,雖然在準確值上預測的這個不是太準,但是在整個趨勢上通過情感分析出來的和真實的有很多的相似性。

之前做過一個應用,比如有突發性的事件,比如奔馳出了一個突發性的事件,從那個事件蒐集出來全網關於奔馳的評論,我對於這些評論進行情感分析看那個事件對奔馳品牌的影響,最後有這個圖,當時對比的時候發現那個事件對奔馳這個品牌還是有很大的影響。最後是包括聚類,核心是情感分析,長文本情感分析準確率不太高都要變成短文本的方法再進行深度學習的處理,如果他是事件本身,他到底是什麼觀點,我們能不能做觀點挖掘的事情,那個時候用了一些聚類的方法,甚至用了一些模式匹配的方法,去衡量他們跟這個事件本身的相似度抽取一些觀點。

在輿情分析裡有一個熱點預測,今天發生的事情未來會不會成為熱點,會不會上熱搜,事件發生之後觀察全網,他的點擊率或者評論,把他的信息加進去做成一個維度,我們進行分類,會不會成為熱搜。其實他沒有考慮到這個事件和以前發生的事件他們之間有什麼關係或者相似度,能不能通過以前的事件對這個成為熱搜,從某種意義上進行預測性的輔助。

這是事理圖譜,這個比較新,也沒有人用到,這個事理圖譜,比如我們現在經常講的知識圖譜,一個個的實體和實體之間的關係,這個實體是以名詞為主建立的,事理圖譜是我可不可以以事情或者動作本身建立這個圖譜,每個節點就是一個事件,或者每一個事件都是一個動作,我去跟蹤這個事件整個發生的過程,然後對他們進行連接。從這裡發現一些模式,他其中的應用你們可以預測類似的事件,通過對以往數據的總結預測未來的事件。

這是哈工大的一些老師做的,他們是從金融的文本里抽取出來的事件,事件之間因果的關係,比如股價下跌可以導致虧損,虧損之後又導致什麼,他們提取的是一個因果的關係,而且節點都是事件。比如汽車領域裡發生了一個事件,這個事件之後另外出現什麼事件,這樣一個一個事件串起來可以分析很多類似事件,至少在熱點預測方面提供很有幫助的維度作為數據的支撐。

下面講一些NLP在金融領域的應用,這是一個朋友的公司,他們在自然語言處理做了十年,想做智慧政府和智慧金融,叫瑪雅機器人,這是他們的Demo,你在廣大銀行APP上輸入給李國金轉500塊,它會發現你要轉帳,它會跳到相應業務裡把相應信息補全,再把別的信息補上,這樣的方式可以自動的識別你的需求場景,迅速成轉化成業務,提升業務辦理速度。同時根據你在APP裡的一些行為軌跡動態影響一些搜索結果。這個數據對於銀行來說有很大的幫助,比如他們可以一週彙總一次數據,去觀察哪些業務被訪問量比較高。比如前段時間他們有一個基金,一週之內被訪問14萬次,這個時候他會採取措施,在這個基金上投放他們的資源或者更多的份數,讓這個基金在這個業務上更好的開展。

下一個是招商銀行,你去搜英鎊,他會返回一系列的業務,外匯、理財,可能他問一些與匯率相關的問題,給你一個排序的展示,而且這樣一個排序也是智能的,根據你以往搜索的歷史進行優化,針對客戶自己的優化,做這樣的業務需要打通招商銀行自己本身的業務,把他們進行融合,我搜一個英鎊,至少三個業務的數據都要有,進行排序的推薦。

第三個應用,民生銀行內部的一個應用,他們內部有一些培訓,各個方面的,比如說有風控的還有信用證的培訓,當然他們也有考試,可以通過自然語言處理將內部數據打標籤,就是做一個分類,分類的目的是什麼,比如他們內部在一次考試裡做錯了什麼題,我可以去發現做錯了哪些題,智能的把標籤打好,之後可以給你推薦這些題,類似一個推薦系統,讓你鞏固這方面的知識,通過這些技術挖掘出來員工學習和考試的行為數據,給自己的員工畫一些畫像。

做這樣的服務,這是他們的架構,這是數據採集,數據庫網頁和自定義知識庫,然後提供一些基礎服務,除了這些基礎服務,也開源了通用的算法,技術的代碼,之所以做這些東西是因為覺得當你覺得把算法真正應用到業務上的時候還是有一些考慮的,能不能做成更加適合用的分佈式或者其他的,所以用Java開源這個項目很方便的在這個上面進行下一步的處理,比如用戶畫像、物品畫像,排序、用戶行為、之後的擴展。進行搜索的時候首先分析問題,識別出來意圖,智能糾錯提示,最後智能的排序和搜索結果。

以上是我今天想分享的自然語言處理在汽車和金融領域的應用,希望給大家一些啟發,謝謝。

想要獲取大會PPT的朋友可以關注公眾號【FMI飛馬網】—底部導航欄回覆關鍵詞"ppt"進行查閱哦!


分享到:


相關文章: