自然語言處理宏觀介紹及應用

飛馬網於2019年3月14日邀請到徐勝權為大家帶來自然語言處理方面的相關內容。

現整理如下:

首先我來做一下自我介紹。可能在還海報上已經看到了我叫徐勝權,是目前是在杭州一家上市公司,主要負責自然語言處理和知識圖譜這一塊的開發工作。首先這個是我們今天要講的主題,主題是什麼?是自然語言處理的介紹及應用,因為我們今天晚上沒有不會涉及到太太細節的技術內容,主要是從宏觀層面上來,瞭解一下自然語言處理這一門學科,然後從整體上來了解一下。

首先在講開始之前安利一下nlp這一行業的薪資情況,目前我在這裡是隨機搜的,杭州地區的,大家可以稍微看一下。然後來看一下自然語言處理這一行業的要求,我們可以看到它主要是包括一哪一些內容?數學。數學相關,然後有編程,然後有深度學習這一些框架,這一些要求,然後包括像語言學相關的知識。然後看到這張PPT的話是我們今天晚上主要所要講的三點內容,第一就是自然語言處理簡介。第二就是它所涉及的一些方法,一些技術涉及哪些技術,然後分享一下在nlp方面的一些學習方法。然後第三點就是自然語言處理技術在我們身邊有哪些應用?


自然語言處理宏觀介紹及應用


現在我們來講第一點就是自然語言處理的簡介。我們來看自然語言處理簡介是我們在學習一門新的知識的話,我們首先一般的流程是什麼?一般是知道他是什麼,然後是為什麼,然後再怎麼做是吧?我們首先看一下它是什麼?自然語言處理就是指計算機對自然語言的形音義等信息進行處理。對,我們的輸入一般是字詞句或者篇章。但是我們在實際企業嚮應用中,句子偏多,篇章級別的分析較少很少,一般都是短句左右。

所以從簡單來講,就是實現人機間的信息交流,包括像人機對話,這是個很典型的一個案例。是吧?我們來看一下馮志偉。馮志偉這個人大家可以去百度一下,人,這個人可以說是像中文自然語言處理的鼻祖,他可能是他研究最先開始研究這一塊。它解釋為自然語言處理,就是利用計算機工具,對人類特有的書面形式和口頭形式。這裡為什麼把它分為書面形式和口頭形式?因為我們在一般場景下我們處理的數據都是比較書面化的。然後口頭形式是什麼?我們在口頭形式,就是我們在對話系統中有一個口語理解系統,就是口語理解系統,比如像我們在對話過程中有一些表達是非常口語化的,比如像什麼吃飯先這一類情況。

所以我們要對這一個坐在對話的時候做一個特殊的處理。我們再來看一下自然語言處理的一些再細分的話,其實我一般情況下把自然語言處理分為三部分,第一部分是nlp。對一些類似文本數據的一個預祝裡,包括像分詞,詞性標註,這一類這類情況做一個預處理,然後在下一個層面,自然語言理解NLU對數文本數據進行預處理之後,對我們的數據進行一個理解的過程。然後再是自然語言生成,自然語言生成的話,像我們有哪些很一些典型的場景?


自然語言處理宏觀介紹及應用


有比如像對話生成,像自動生成詩歌,或者像現在有一個比較火的應用,就是自動生成文章。自然語言生成就是指自然語言文本來表達給定的來表達給定的意圖。自然語言的理解和分析,我們可以把它看作是一個層次化的過程,也就是說把它分成五個層次,也就是更好,這樣能夠更好的體現語言語言本身的構成。因為我們像中文和英語之類,其他的語言有可能會有一些不同。中文最大的差別就是中文和英語多一個分詞的一個過程。但是我們分詞有一個特點,就是它會影響我們,如果分子的準確率不高的話,它會影響到我們下一部分的下一部分的操作。

也這樣的話,也就是說會存在一個plan模板。現在有像一些任務,包括像秘密幾識別,關係抽取這一類任務的話,如果能夠部分詞的話就儘量不分子。所以我們當做一些自然語言處理任務的時候,想到的第一第一個想法並不是上來就進行分詞,我們我們把它分成五個層次,包括語音這一塊我們暫時不做研究。想可以大家可以自己想一下,包括像我們身邊用的最多的就是像小艾同學天貓精靈這一類,它首先是把我們的語音變換成變化成文本語音識別變化成文本之後再做,對文本進行處理。


自然語言處理宏觀介紹及應用


這些處理包括哪些?像詞法分析,然後進行句法分析,還有在語義層面上的進行一些分析,包括像語音層面,我們下面來做,對下面這幾個做一個講解。


自然語言處理宏觀介紹及應用


這個是一個流程圖。語音分析,主要就是根據像因為規則從語音中區分出一個個獨立的因素,再根據這些抽取出I對應的詞數或者詞。最簡單的就是把語音轉成文本,最直觀的理解就是然後詞法分析就是找出詞彙的各個磁術,包括像語言學的,企業的信息,通俗的來講的話就是我們說的分詞,包括以後要做的一些詞性標註,詞性標註,它的作用就是為了以後做句法分析來用,包括像標註它的動詞名詞,包括形容詞這一類。

我們的詞法分析主要包括哪些內容呢?有磁性分詞,詞性標註,像還有新詞發現,同義詞處理,還有漢字拼音互換等等,這些漢字和拼音之間的互換在我們的輸入法中是比較常見的111個場景。然後句法分析是一個目前是一個難點,它難在哪裡呢?主要是我們的句子會有很多奇異信息,還有還有包括一些像多音字之類的。比如我舉一個例子,像之前網上比較火的一句話就是小龍女跟楊過說,比如像其他的小龍女對周伯通說,我也想過過過的生活。這個句子乍一聽,是不是很拗口?

但是我們人為的來理解的話是沒有關係的。但是如果要讓技術會有很大的難度。比。因為它這個詞過而過的生活,想過兒過的生活,她很難處理。現在我們來看一下,什麼是句法分析,句法分析,就是對句子和短語的結構進行分析,其主要的分析方式就是進行構建分析解析樹,一個對句子進行一個樹形解析,它的目的就是找出詞和短語等相互關係,以及各自在劇中的作用,以及在I各個詞彙之間的一個依存關係。句法分析,像我們在從概念上來說的話,我們可以把它分為一個叫句法,結構分析和依存關係分析這兩種。

I從完整性來完整性上來區分的話,句法結構分析就是稱為完全句法分析它是什麼意思?就是對我們輸入我們的一個跨越位。比如我們在前臺輸入一個塊為一個輸入,I輸入一句話,我們對整句話來進行分析。比如我們在我們有一個對話系統的場景,用戶輸入一句話,我想打車去上海,當然這是一個比較簡單的句子,我們就對在輸入的一整個單詞序列來判斷其構成是否合乎給定的語法結構,因為我們再會給定一個規則和一個詞典規則是什麼?就是類似類似像名詞,動詞名詞,它的一些成分,包括像明不定式,這是一個。

制定一個詞典,然後再根據詞典來判斷是否合乎句子的句法結構。然後我們這個句法結構通常一般是用樹狀數據結構樹狀圖,也就是說我剛才有所提到的叫做解析數據。法解析順的話,我們目前存在解析數的生成其實是不難的。解析書的生成是不難,但是它有一個最大的難點是什麼?有一個比較複雜一點的句子,也就是說其一起有歧義問題的句子。歧義我們以後等一下再稍微提一下。它會生成很多個解析樹,我們要從這很多個解析書裡面去找出一個最優的最優的樹狀結構出來,提示作為我們的結果。

目前是最難的是這一點,一個是歧義,歧義問題。另外我覺得還有另外一些問題,就是我們等會可能會提到知識圖譜的時候,等一下再講一下。然後我們再PPT裡面沒有講的話,句法分析,我們來把它做一下分類,就是句法結構分析和依從關係分析。嗯句法結構分析就可以把它看成是一個句法的完整完整性分析,一層一層關係分析,可以把它當做是一個淺層的技法分析,淺層的技法分析,我們等會再提嗯句法結構分析,也就是這種完整的完整成分分析的話,它主要任務它是有三點。

當然第一點是叫做判斷,我們輸入的字符串,也就是我們輸入的這個文本是何種語言。這個的話我們在一般情況下這種需要處理的,因為我們有的時候有一些在大部分場景,它默認情況下都是中文,但是我們在對話系統的場景中,對這一個的話可能是但是這個判斷必不可少。因為我們有的時候像對話口語會出現中文和英文夾雜著的這種情況,比如像說OK之類,就還有一些表達的話,可能就是類似像中文和英文都有。你答我電話就OK了,這種情況,我們可能要做一些特殊的處理。

還有一種場景,比如像早上打招呼,嗯甲看到乙說你好,然後以回覆說hello這種情況也是一種場景。然後第二種,二第二個任務就是消除輸入句子中詞法和結構等方面的歧義,簡單來說就是叫排氣工作。我們主要的奇異像有一些附著歧義,結構歧義等等。比如像我們有一些場景叫做什麼呢?是O的man,and woman,是吧?這種這種理解的話,很容易可以看作是像比如老人,老年人和老年的女人。如果她這種額可以指O的man和woman,然後也可以只是說目前在我看來提議問題是是一個最大也是最難處理的一個問題。

如果把棋一牌其處理好了,自然語言處理這一塊的研究會是有一個質的飛躍。然後第三個就是像分析,輸入的句子的內部結構,比如像成分構成上下文關係,這個東西我應該等一下講一個我們這一個架構圖,等一下講一下。就把分析。包括像我們句法分析的話,會有什麼像形式化的語法,形式化語法之後,發展有概率上下文無關法,包括像喬姆斯基範式之類這一塊,我忘了把我把下一張PPT發出來了,但是剛剛講到句法分析,還有一個淺層缺乏分析沒講到,就是依存關係分析,依存關係分析為什麼叫依存關係?因為它其實我們可以把它稱為是叫做一個叫局部分析或者淺層分析。

它只淺層的句法分析,它是一個他主要的任務就是叫做識別,一個叫基本名詞短語叫做被cm P它是指什麼叫基本名詞短語,就是指一個較簡單的非嵌套的名詞短語,它不含有其它子短語的一個短語叫基本名詞短語。所以像我們有一個子任務,叫做產品,創新識別就是叫愉快識別,它可以把它歸類為向淺層句法分析這一塊,切我們的淺層句法,分析可以分為兩塊,一個就是愉快,就是我剛剛所提到的產品,創新識別,創新識別。我們有一個方法,就是基於序列標註,序列標註的思想,序列標註,比如像我們的內媒體識別,實體識別這一塊。

實體識別是等一下,PPT裡面有一個有一塊內容叫知識抽取,知識抽取裡面就有一塊內容是實體抽取,實體抽取的思想可以跟歸為一類,叫做序列標註,它是一個它的訓練數據,是不用進行分詞分詞處理的,只是用RB和A來區分。比如像我們實體識別裡面要抽取出人名字,可以把標項超抽取人機構名時間等等我們這個時候的話,我們就可以構建一個標籤舉證。像BB-poss,愛崗破損,BR-ORGA崗org。這個標籤矩陣是什麼意思呢?

D就是指開頭,I就是指除了開頭以外,它的中間部分,中間和結尾部分都是用愛來來區分,然後非不是這一塊的話,我們就用O來區分,這樣的話就可以把它全部區分開來,反而從而進行識別。然後我們不管是完全句法分析或者淺層句法分析,我們都是構造一個一個解析書的過程,構造解析書的方法其實是有三種,一種是自頂向下剖析法,還有一種叫自底向上的剖析法。然後另外一種方法就是比較複雜,可能是把前兩者結合起來叫左腳分析法。它是把自頂向上和自底向上的兩種方法進行結合,來生成一個句法分析樹。

因為目前今天的話,我們不對這些技術細節來進行深入的討論。因為可能構造句法非解析書的過程可能講兩個小時或者三個小時都可能都有可能。只是做一個大概的瞭解。不做愛細節方面的一些探討。然後到語義分析,我們在語意方面什麼叫語義分析?就是找出像詞的一詞一結構意義,以及結合意義,從而判斷他語言所表達的真正含義或者概念。我們有一個語義解析。再比如像對話裡面有一個場景,就是像我們可能在漢語方面,同同一個詞在不同的場景,它表達的意思是不同的。

然而在同一個場景,它有多種的表達方式,對話裡面一個如果一個用戶輸入,你今年幾歲了?或者這個時候他的問題是你今年幾歲,你可以回答我今年20歲。然後如果他換一種問法,你今年多大了?你的回答應該是一樣的,照樣是我今年20歲。所以這種的話,他從你要從他的不同的表達當中,導致他找出他真正所要表達的意義。然後還有一種可能相比較更困難一些的同樣一個詞,在不同場景,它所表達的意義,比如說像有的時候,他有的時候可能表示疑問了,類似這種的話,這種在最這種處理就相當困難。

我們等一下用語用的話就是是什麼?就是它一個最深層次的影響。比如說我們有的時候可能會出現這樣的情況,他會比如說我們犯了錯誤,領導他批評我,他但是他並不是直接的批評我,他只是他有可能會含沙射影的來講一下。這個時候就是我們要領會他深層次的意思,這種可以把它較為與用分析,然後大家大家可以看到這個圖,還看到我們在自然語言處理這一塊的一個由淺入深的四個層面,這個形式是指什麼?就是形式化語言。形式化語言就是我們在已經特定編輯好的一種意義就比如像最簡單的或者是一種什麼情況呢?化學方程式。

它是一種形式化語言,它的表達是意義很簡單的。然後就到語義這一塊,我們目前所研究到的,我們僅僅還停留在語義和推理這一塊。推理我們等會再講到。這次圖譜內容的時候,有會稍微等一會稍微提一下,就是知識推理。這是推理是什麼呢?很簡單表示,比如我有一個推理是什麼呢?比如叫一個推理的場景是什麼?我想一下,比如我舉個例子,像王健林的兒子是王思聰,然後王健林的老婆是誰?他老婆是誰,我並不知道,然後我們可以從這。但是我們可以從這一句裡面分析到,王繼林的兒子是王思聰,他的老婆是誰,但是我們並沒有提到王思聰的母親是誰。

這個時候我們就可以做一個推理性的工作。這是很簡單的一個推理,就是我們可以推理出王思聰的母親是誰?比如說我假設是A這個就是王思,王健林的老婆是A黃私,王健林的兒子是王肅。應該推理出王思聰的母親是A這是一種場景,還有一種就是這種是可以把它規則歸結為情感分類細力度的情感分類。以像我這裡的這PPT裡面這個例子叫什麼?像五星級賓館連游泳池都沒有,這肯定是一個差評。一個負面情感。這個在情感分類裡面叫什麼?一個叫情感分類,有一個顯示情感,還有一個是影視情感。

顯示情感就是我們在R語言的表達當中,很直接很直觀的表達出來的。這個東西很好。蘋果很甜,我很喜歡苡。這個東西很髒,我很討厭。這直接就顯示一顯示的指出了我對這一個的喜好。正面。我們如果像在做像一些輿情分析,或者像戲路的情感分析,它它的分類並不只分為正面和正類和負累,因為在情感分析這一塊,歸根到底可以把它歸結為是一個文本分類的過程。


自然語言處理宏觀介紹及應用


文本分類的話,我看到之前有一位老師是已經有講過,像情感分類,我們的意圖識別等等,這一塊歸根到底都可以把它歸結為一個分類的文本分類的工作。

影視情感分類就是我上面舉的這個例子,他沒有很直接的表示出來,我對這個東西的喜好,叫做影視分類,這是影視分類比較困難的一個一塊。我還可以舉個例子,比如我的心情就像天氣一樣淅淅瀝瀝下著小雨。按道理來講,我能夠表示的是我心情比較不好。我心情很沮喪很差,這就是一個影視分類的問題。像然後這裡是一個懸於用,其實與用我剛剛在推理到從推理到語用這一塊,其實可能是有一些可能差的不是特別多,可能有一些情況就在語音這一塊。

像金融海嘯來了,可能是可能會引發金融危機。這一類。在語用這一塊,馬上九點了,我們稍微講快一點,現在我們來看一下它的一些技術,對一些技術性的總結和學習方法,自然語言處理這一塊怎麼學?等一下我們現在第二個主題進行進行一下探討。大家可以看到這張圖,這張圖的話是從底從下往上看,從下往上看,這個叫資源第一層叫。這個應該是看做是一個叫金字塔型結構,第一層是叫做資源建設資源介紹叫什麼?語言學知識庫和語料庫的構建。

語料庫這個東西,我自己把它歸結為類似可以把它歸結為一個數據倉庫,有可能你有的時候可能不僅僅是有語料庫,像語言學知識庫之類的,可能還有會還有來自像關係型數據庫等等一些一些數據。這個東西我們在構建構建語料庫的時候,可能有的時候還會存在一些把像一些基礎研究,像詞法,包括像詞法句法語這些基礎性研究的結果,把它迴流到資源建設這一塊,它的結果用來跑數據的結果用來構建語料庫。很簡單的,像像有的有一個案例就是什麼呢?

我們有的時候會在構建知識圖譜的知識圖譜的時候,我們要構建一個自己的知識庫。但是往往我們會通過像詞法分析句法分析這一塊的基礎性研究,來進行一個像包括命名體識別,就是知識抽取的內容,這是抽取關係抽取,構建三元組來構建知識庫。其實這兩個是分不開的。從基礎研究到構建知識庫詞法分析,詞法分析句法語義。剛剛講到了,其實在基礎性研究上的話,這一塊我覺得嚴格意義上還要再加兩塊,內容比較好。一塊一塊是語言模型,還有一塊就是知識圖譜。

現在有很多場景,也有很多公司的團隊,它是怎麼弄呢?會構建一個垂直領域,垂直領域就是特定領域,比如像司法領域,金融領域,醫療領域,教育行業等等,或者農業這類的。你根據特定行業來構建一個自己的知識圖譜,這個知識圖譜是什麼呢?這隻圖我最大的一個特點,他就是可以找關係,是吧?構建出來一個知識圖譜,在基於知識圖譜做上層的一些研究,包括像精準營銷推薦系統,然後還有像基於知識圖譜和像自然語言生成構成的一個對話系統,閒聊系統,等等,就是這上面的機器人。

是吧?應用技術研究這塊我們等一下會講到。應用,包括像信息抽取信息抽取,可以歸結為知識抽取。等一下會講到。然後包括像機器翻譯,問答系統等等。然後再上層的就是應用了。我們可能做一些實際的應用,包括像在教育行業,醫療行業司法行業金融行業機器人行業。舉一些例子,像我們經常百度的杜小法。是吧?這些都是基於這項底層應用研究來做出來的一些成果。現在我們來看一下,這些主要我們就是一些應用技術,應用技術它到底在應用到哪一些方面?


自然語言處理宏觀介紹及應用


比如我們可以做一下分類,像機器翻譯,這些翻譯現在是一個非常熱門的一個方向,包括現在的翻譯,不知道大家有沒有這種感覺,有的時候你可能會會用到谷歌翻譯或者百度翻譯的話,他比如說你有的時候,或者你寫論文的時候,你有一句話,你想翻譯成英語,你不會翻譯,你用百度翻譯,他翻譯出來的英文,他現在翻譯出來的結果比前幾年要好很多。前幾年就是很傻瓜式的按字面意義把它翻譯出來。但是它有的時候效果好了很多,包括同時裡頭包括像中英漢翻譯漢陰,可能有的時候你看,做閱讀理解的時候不懂,你會把一下一個句子用百度翻譯成中文,以前都是很傻瓜式的,就根據字面意義來翻譯,現在他會結合了很多東西。

百度翻譯團隊是目前是第一個將神經網絡應用到機器翻譯這塊。有一篇論文不知道大家有沒有看過,但那個論文的名字我有點不太記得了,他是第一個將神經網絡應用到機器翻譯這一塊的。然後第二點,自動文摘可以類似維基樂機器理解這一塊,我們有一個比較長的文檔,提煉出一個很簡要的摘要,或者一個縮寫。自動文摘。可以隨便了解一下,我感覺自動文摘的應用應該不是特別的廣泛。有的時候可能會有一些應用,但是並不是特別廣泛。然後第三點,第三點信息檢索。

大家不知道從在從事自然語言處理這一塊的話,可能會對信息檢索的理解要稍微深一些。但是其實信息檢索無時無時不在的。很簡單的,我們在如果我們有什麼問題,百度一下,谷歌一下,這就是一個信息檢索的過程。信息檢索的概念就是從利用計算機從海量文本中找到符合用戶需求的需要的相關文檔。是吧?我們在百度一下,其實就是從百度互聯網中找到我們想想要的想要的內容,他會做他對會對我們的一個搜索的結果進行一個排序,是吧?然後我們自己再要一個篩選的過程。

但是如果我們在自己項目中是一個特定領域的,包括像比如說類似司法行業,我要檢索一條內容,它可能它它是基於我們的知識庫來進行檢索的,所以他就並不像我們的百度這種形式,五花八門,各種廣告之類的東西都有,我們這種的檢索就會變得比較比較直接,可能搜索的內容會比較少。可能也有可能就是他會很很快的減少出我們想要的東西。信息檢索我們還有一點就是叫語義檢索與建設,比如我有個場景就是我要查查詢,姚明是身高有多高,是吧?

它會返回查詢姚明的身高。這是一個比較簡單的一個檢索的場景。但是我們在實現的話,我們G技術實現是把它轉換成一個邏輯形式的語言語音檢索,邏輯形式幾個方轉換成一個邏輯形式語言來進行進行一個跨越,我們可以把它類似,把它比作就是你輸入的一個問題,前臺一個跨越偉傳到後臺後臺進行解析,解析,包括有一些可能一些分詞序列標註,命題識別等等一些一系列操作。然後再根據我們的知識庫,或者是基於ES等等。boss。可以的。

各種情況都會有。然後在知識庫中檢索出我們想要的答案,答案,然後做一個排序,排序之後然後再返回給前臺。展示。這就是一個減少的一個過程。然後我們還有一種稍微複雜一點的場景,就是較多跳查詢。多條查詢是。我之前查詢的是姚明的身高是多少?然後現在我不想這麼纏了。現在我想查姚明的老婆是幹什麼工作的。比如我叔叔姚明的老婆是幹什麼工作,這個時候我們要做,就相當於這一步,我們的解析它會做兩種兩步處理。第一步你要先找到姚明,然後第一步你要先找到姚明的老婆,姚明瞭,你要定位到姚明的老婆是誰?

然後你從定位好了之後,你再定位到他是做什麼工作的?叫做多跳查詢。剝掉查詢相,我們在知識圖譜裡面會有一些像類似把它轉換成一種邏輯形式語言的一種說課語言來進行查詢,這是信息檢索的一個內容。當然信息檢索他是叫A這裡。PPT有一個有錯錯誤是AA不是A1修改一下。這裡可能是寫的時候寫錯了。信息檢索。目前也比國內比較好的團隊是清華那邊劉志遠那邊。劉志遠老師實驗室裡面做信息檢索是做得很好的。然後下一步我們到文本分可能是大家接觸的最多的,可能可能自從接觸自然語言開處理開始,可能第一做的第一個實驗就是進行文本分類工作,包括像新聞分類等等,是吧?

主題分類內容根據標籤,根據高標籤我們文本分類,這是一個非常好的練手項目,知乎曾經有一個知乎看山,他有一個比賽,叫做多標籤文本分類,它那個數據數據很大,數據量很大。大家可以百度一下,叫知乎看三多標籤,文本分類分可以第一名團隊把它的代碼和方案都已經公佈了,大家如果有興趣,練手研究一下,然後還有主題分類等等。文本分類它主要的方法像什麼?像有text的cn阿特cn,還有把特色CNN結合起來,都這樣的方法都會有,然後是有一個情感分類。

3D版的classic,他情感分類的。我剛剛也有講到,把它歸結為一個歸根到底是一個文本分類的一個任務。因為我們我們情感分類可能就簡單一點的話,可能分為正類或者負累,然後細粒度更細的話,可能會分為5到6類,沮喪開心等等。是吧?文本分類的一個一個任務。文本分類之後,有的時候可以更一層,更層次的有像什麼?這是情感分類的,可以把它支撐為項輿情分析。是吧?輿情分析系統,下一步就是對話系統。對話系統呢怎麼說呢?


自然語言處理宏觀介紹及應用


是可以說是目前研究比較火的一個方向,應用的最多的還是在特定領域的一些像客服工作諮詢工作,類似一些問答。單輪對話的問答,多輪對話目前在企業中應用的並不是很多,問答,先看一下定義,就是想通過計算機用戶,簡單的就是人機交互對用戶輸入的文本進行理解,利用知識推理文本生成,之前有一些御廚裡的工作項,然後進行知識推理文本生成,然後給出合理的回答。如果你有語音的話,會會把你的一個文本生成的文本再轉換成語音,是吧?

構成一個對話系統。目前做一下分類,以單輪對話的還是為主的。因為你多輪對話可能主要存在一個,如果你用像基於神經網絡的多輪對話生成,它存在一個問題,就是一個不可控性因素。比如說你給甲方做了一個系統,你文本生成了,它生成的,你可能並不知道它會生成什麼,是吧?如果生成了一些不可控性的因素,這東西你們沒辦法的,如果對他造成損失的話,這個所以現在應用的最多的還是像基於知識庫的貨繼續檢索的。這類對話系統,是可能是90%都是這樣,因為閒聊系統一來可能對一般性的工收益不大,因為很多公司它做這種系統,就是對他的業務進行一個需要的一個幫助,或者是能夠商業性的。

因為你有的時候,如果你構成一個閒聊,因為目前的話閒聊系統可能也並不是特別的成熟。你包括像天貓精靈,像包括小艾同學,對。他剛剛叫了一聲,他答應了。他。我好像還不太知道它構成的是什麼呢?它也是一個單指令,僅僅有的時候我有實驗的話,有它有可能僅僅在很簡單的情景下會有多指令。絕大部分是單指令,就是單單輪對話,它並不具備多少什麼呢?多輪對話的一些記憶性。I包括天貓精靈等等這些東西的話,你可以試驗一下,也就是說你上面說了一句話,你下面再說,他就不記得你說的這句話是什麼?

這就是簡單的一個單輪對話。下面是一個對話系統的稍微一個很簡單的一個展示,目前我自己有做一個一個對話系統,把把知識庫換掉的話,在垂直領域是效果是還可以,但是在開放領域,閒聊領域其實效果並沒有達到我預想的那麼好。你看這些這些很多東西,你有的時候你會發現,他其實是基於基知識庫的,它並不是一個文本生成的。是吧?下面我們來看一下,下面我們來看一下知識,抽取知識抽取可以怎麼說?它是歸結為知識圖譜的那一塊。說了很多知識圖譜,然後我們現在來講一下什麼是知識圖譜,這是圖譜的,它的前身是雨衣網。

大家可以可能會如果有興趣可以去百度一下。前身是語義網,經過一系列的發展,谷歌在2012年還是2013年把它應用到搜索引擎上,然後對搜索這一塊有了極大的提升。後來在大概14年左右,國內公司很多公司就在開始構建自己的知識圖,包括阿里京東百度都有自己比較稍微成熟一點的知識圖譜了。他知識圖譜它有個最主要的一個一個東西叫什麼呢?它會它是一個類似一個關係,它把一些關係全部都理順了,全部都他會有一個圖數據庫。他把把所有的關係全部都理通,全部以知識圖譜的形式存儲,然後知識圖譜它包括有哪些?

像一個知識的一個獲取。這是獲取的話,有一個方式,什麼是爬蟲,然後I基於自己的業務數據,你要如果需要第三方數據的話,可能是要自己來寫爬蟲,爬數據,扒別人的數據,然後爬到數據之後,有這是表示。這表示向知識建模等等。這是建模之後有知識抽取。抽血,然後你可能爬蟲的話排的是多個數據源,你要做一個知識融合。這融合的話,你還有一些像實體,這裡這是融合,這是推理向知識中包。這是存儲這些存儲的話,圖譜存儲。數據一個絕大,90%數據存在圖數據庫裡面。

圖數據庫目前開源的開源有瓜地B像附件的話是吧?我們自己的知識圖譜的話是有做一個調研RNU for J的話,它有商業版和社區版兩種。一般的話,我們目前用的是社區版,根據調研,如果你是有在10億節點,你的圖譜是在10億節點以內,11個節點。因為圖譜的話,如果你有一個關係,比如你有一個像三元組我們構成有一個三元組關係,類似比如我舉個例子,奧巴馬,三元組它是一個教主,衛兵一種形式存儲的。因為為什麼?你還可以最簡單的一個理解為就是實體一關係實體二,實體二和這個關係是指實體一和412之間是怎麼樣的一個關係?

我簡單一個知識圖譜的一個簡單的舉例,就可以分為像奧巴馬出生於華農讀讀。這是最簡單的一個三元組。三元組,裡面有兩個節點,實體一和10.2,這可以看作是兩個節點。也就是說圖數據庫恩又不接,在10億節點以內。商業版社區版是夠用的。這是講到稍微提一下知識圖譜的概念,因為這是圖譜的概念。這是圖譜,你不知道,可能大家以後如果有接觸的話,你會發現它會把我們自然原處理,自然語言理解,自然語言生成等等方面,包括像前端後端,爬蟲,數據庫等等等等內容,他全部都融合在一起。

所以你想想要構建一個好的知識圖譜是一個件比較困難的事情。它還有一點就是關係抽取,我們這裡等會我們PPT裡面有講到知識抽血看一下,它的概念就是將非結構化數據轉化為結構化的數據,因為我們的數據源一般的情況下,我們數據源是分三種,一個叫非結構化數據,還有一個叫半結構化數據。然後第三種就是結構化數據。結構化數據很好理解,就是我們存在賣騷客奧奧瑞克這類半結構化數據是什麼呢?也就是我們經常遇到的像愛傑森,X ml等等,這類數據可能可以叫為叫做半結構化數據。

非結構化數據,就是我們這些處理的文本數據等等。因為我們的核心知識抽取的核心就是在非結構化數據這一塊,轉換為結構化抽取,一般它的任務子任務分為哪些呢?數據實體數據剛剛之前有提到。實體,你包括時間,地點,人民機構名金額等等,所以我們在做實體抽取的話,像之前說到的用序列標註的方法,構建標籤局,用的最多的方法,以前都是基本上是用BI LSTM加上條件隨機場來做。但是自從去年我自己有做實驗,去年自從谷歌出了很火的一個詞,向量模型BRT號稱有3億參數,把它用到實體抽取這一塊,效果確實是有明顯的提升,提升比較大。

我之前用條件司機廠家雙向神經神經網絡來做的話是F1直將近是在89%,加入BABRT來優化之後,可以達到96%-97%,效果已經非常好。當然這只是因為我的訓練數據的話是司法行業民事判判決書之類這一行業。但是如果你在對開放領域,所以你可能要在訓練數據的話,要更多更多一些,可能效果會更好一點。然後第二個任務就是關係抽取,關係出去。是吧?剛剛之前有講過兩個實體之間的關係,比如像王思聰是王健林的兒子,我們抽取出來之後,會以一個三元組的形式來表示。

是吧?關係抽取比較困難的一點。我目前是最近是有在寫一篇寫一篇論文,就是關於關係索取的。我感覺關係出關系抽取目前最大的難度就是它不準確。是吧?關係。你可能一句話裡面有多關係,而且你關係的類別很多,不僅僅是像父子同學這一類的關係,是吧?你有的時候發生像借款關係,A與某某時候發生與B發生借款等等。然後下一步就是事件抽取,事件抽取也是一個核心事件,抽取的主要任務是學車。事件的觸發詞,事件類型,論員以及論員角色,比如從一篇新聞報道中抽出某一某一恐怖事件的基本信息,像包括像時間,什麼時候這個事件是什麼時候發生的?


自然語言處理宏觀介紹及應用


發生在哪裡?失事的事件製造者,失事者是誰?受試者是誰?襲擊目標傷亡人數等等是。大家可以發現看到有一個什麼?就是時間和事件。當然如果我們的一個抽取的一個文本里面,它有多個時間多個事件的話,還存在一個難點,就是一個叫時間序列化的問題,就是你必須要把這個時間跟這個事件一一對應起來,是吧?然後收取這個比較簡單,我們標包在標籤矩陣裡面把他加上。就OK了。其實這一塊用的不是很多,有的時候術語也有可能把它類似。

他把它看成像人民或機構名之類的,是一個數術語。然後像除了上面這些還有應用,還有一些像隱喻計算,自動校對作文評分作文評分等一下,在應用裡面有講到語音識別等等。然後就講到學習方法。學習方法,其實其實不管我們學任何一門東西沒有捷徑了,大家可能有感覺像做算法,自然語言處理,等等語音圖像等等,這一塊,可能對數學的要求是相對較高一點。包括像數學分析高等數學,高等代數概率論。數理統計等等隨機過程。像時間序列分析可能可能在做。MAP方面他對對隨機過程和時間序列分析這一塊的要求稍微高一些,因為我們把它當都是把文本當成一個序列來看的話,所以有時間的話可以多看看數學基礎等等。


自然語言處理宏觀介紹及應用


然後英語基礎為什麼叫英語基礎呢?可能涉及到在學習過程中看看文獻,看國外的博客等等。因為可能在這方面的話,國內的研究和國外確實是有一些差距的。可能我們需要看多看一些頂會的論文,包括像ACL等等,這些點會的論文它全部都是英文的,所以我們對英文的基礎也要也要提升上來。第三點就是讀論文,讀一些經典性的論文。讀論文之後,把論文的模型理解之後,浮現出來,所以我們有的時候儘量選哪些那些可以能。之前就有存在很多問題是什麼呢?

就是很多論文他不能復現,你有的時候不能復現的話,你可能在工程上沒辦法使用。所以儘量挑選一些提供了代碼的,提供能夠做實驗且能夠實驗成功的,那我來來看。然後第四個就是知乎博客像get up等等,這方面也是很重要的一個學習資源。然後我們開始進入到我們的今天的第三部分,可能也是最後一部分,現在是9點半。PPT也只有幾張了?稍微然後在自然語言處理在我們身邊的一些應用。第一個向我們的有智慧醫療,可能智慧醫療這裡可能就是有一個知識圖譜的一個多模態。


自然語言處理宏觀介紹及應用


多模態的一個知識圖譜。智慧醫療有的時候類似像問診,是吧?看看後面類似這裡就是一個對話系統,你看它後面是一個單輪對話,是吧?有的時候像一個問答,這一塊想要把問診做好還是非常難的,因為現在有的時候應用最多的可能在醫療上應用比較多的,可能是在圖像方面,類似像影像分析等等。但是目前僅限於一些諮詢諮詢和問答工作,但是如果你要真正叫一個醫生來根據你根據你人工智能提供的方案來來問診確診等等。我相信肯定沒有哪個醫生會會相信的。

是吧?因為醫生他要對他的診斷負責,所以你有的時候你可能人工智能做的太再好,你說的再再準確,你可能分析覺得覺得你的分析在準,醫生都不會相信你,他還是要自己根據自己的判斷來來確診。所以人工智能只能對象醫療行業做一個參考性的一個工作,輔助他服做一個輔助,並不能判斷它替代它來做一個醫療診斷的一個決策。這一個智慧司法就是我現在正在做的一個工作,類似像法律諮詢,法條查詢,律師推薦案情分析等等,然後我現在在後面這邊也是一個基本性的一個問答工作,我們目前是也有在自己構建一個金融司法,我們主要是金融行業金融司法的一個我們在知識圖譜的層面上,其實還有更多更多一個內容就是就是找不良資產找老賴,是吧?


自然語言處理宏觀介紹及應用


可能我們從一些判決文書當中,可能早會找到像一些不良資產內容,類似像比如某某某在何時欠了某某某的錢,然後這個錢他不還。告上法庭,說走司法這一條路,然後查封某某的資產等等,我們是有一個這樣的一個場景。比如說我欠了誰的錢,然後在我在另外一處也有又有房產,誰又有誰還有另外一些人來欠我的錢,所以我們要找到這些這些類似這些證據或者一些關係把它找出來,然後是吧?這裡下一下一步就是一個智能教育,這裡就是類似一個這個案例是一個評分,作文評分的一個工作。


自然語言處理宏觀介紹及應用


這裡就是對一個篇章級的一個分析。智能教育我們目前我覺得可能只能起一個參考性的作用,我們最後講一個案例,就是一個智能音箱,智能音箱,包括像天貓精靈等等是吧?然後有小艾同學,像小孩小愛我,因為我把天貓精靈和小艾同學我都有。我來把它關掉,你好像沒有智能設備先去購買一個班。因為我因為我一說小孩同學他我這邊他就答應了,所以我把它關掉。我對比了天貓精靈和小艾同學,我個人已覺得小孩同學是更有趣一些,包括像這裡有一些案例,包括像雷軍有多少錢等等。


自然語言處理宏觀介紹及應用


大家如果有的話可以自己來嘗試一下。小艾同學我個人感覺是目前智能音箱裡面做的比較好的一個一個產品,然後這是一個小艾同學。這裡還有一個案例,我們沒有講到微軟的微軟小兵,大家有時間可以去體驗一下,我覺得如果相比的話,我覺得微軟小冰是做的是最成功的一個對話系統,大家可以自己去體驗一下。然後然後今天的內容現在是9:36,今天的內容的話可能也分享就到此為止。到這裡結束了。可能講的也並不是很好,因為第一次用到語音直播,可能剛開始十幾分鐘沒有完全習慣,到後來的話是可能現在已經用了好。


分享到:


相關文章: