帶你領略數學的美——《數學之美》讀書筆記(三)

統計語言模型

我們在前一章講了自然語言從他產生開始,逐漸演變成一種上下文相關的信息表達和傳遞方式,因此讓計算機處理自然語言,一個基本的問題就是為自然語言這種上下文相關的特性建立數學模型。這個數學模型就是統計語言模型,他是今天所有自然語言處理的基礎,並廣泛應用於機器法醫、語音識別、印刷體或手寫體識別、拼寫糾錯、漢字輸入和文獻查詢。

開始之前來給大家講一個小故事:早年,李開復博士曾在蘋果電腦公司任職,專門負責新產品的研製和開發。

帶你領略數學的美——《數學之美》讀書筆記(三)

有一次,李開復與公司CEO史考利先生,受到美國當時最紅的早間電視節目“早安美國”的邀請。在當時,能上這個收視率非常高的節目,不僅是蘋果公司的榮譽,也是李開復展現個人魅力的機會。電視臺方面提前和蘋果公司溝通,希望他們能在電視直播中,演示蘋果公司最新發明的語音識別系統,讓更多消費者瞭解到公司的新產品。

在上節目的前一天晚上,史考利找到李開復,有些擔心地問他:“開復,你對明天演示成功的把握度有多大?你也明白,這是面對全美國直播的電視節目,它會直接影響到我們公司的聲譽和產品銷量,意義重大。所以,你要儘可能地將其做好。”

當時,李開復負責開發的語音識別系統才剛剛搭建,說實話,碰到故障的可能性還是蠻大的。聽到史考利的問話,李開復認真地思忖了一下,然後平靜地回答道:“大概有90%吧!”

史考利聽後,心有不甘地接著問:“你能將這個概率提高到99%嗎?”

看著史考利期望的眼神,李開復想也沒想,最後底氣十足地立即回答道:“能!”

第二天,電視直播節目如期開演,一切都進行得非常成功,甚至連公司的股票都因此上漲了兩美元。

大家可以先思考一下李開復是怎麼做到的,他的做法使用了概率論相關的知識,在文章的最後我會給出答案。


下面我們來看一下數字之美這一章的讀書筆記

賈里尼克 的統計模型

帶你領略數學的美——《數學之美》讀書筆記(三)

賈里尼克 的統計模型:一個句子是否合理,就看他的可能性大小如何。更嚴格地描述:假定S表示某一個有意義的句子,由一連串特定排序的詞w1,w1...,wn組成,要想求得S在文本中出現的概率P(S),有P(S)=P(w1,w1...,wn),利用條件概率公式可以展開為

P(w1,w2...,wn)=P(w1)·P(w2|w1)·P(w3|w1,w2)...·P(wn|w1,w2...,wn-1)

式中P(w1)表示第一個詞w1出現的概率,P(w2

|w1)表示在已知第一個詞的前提下第二個詞出現的概率,也就是說,詞wn的出現概率取決於它前面的所有詞。

但是公式前幾項比較容易計算,但是從第三項開始計算難度加大,可能性太多了無法估算,於是就有了馬爾可夫假設:假設任意一個詞wi出現的概率只同他前面的詞wi-1有關,於是上式就可以表示為:

P(S)= P(w1,w2...,wn)=P(w1)·P(w2|w1)·P(w3|w2)...·P(wn|w1,wn-1)

這個公式對應的式語言模型的是二元模型,當一個詞由前面N-1個詞決定時成為N元模型。

接下來的問題就是如何估計條件概率P(wi|wi-1),根據定義

P(wi|wi-1)=P(wi-1,wi)/P(wi-1)

根據相對頻度:

f(wi-1,wi)=#( wi-1,wi)/#;

f(wi-1)=#( wi-1)/#;

根據大數定律,只有統計量足夠,相對頻度就等於概率,即

P(wi-1,w)=#(wi-1,wi)/#

P (w

i-1)=#( wi-1)/#;

因此,帶入上式得到:

P(wi|wi-1)≈#( wi-1,wi)/#( wi-1)

這個模型仍然存在一些細節問題,比如公式中對詞(wi-1,wi)在語料庫中沒有出現,或者只出現了一兩次,估算概率就比較棘手了


現在我們來揭曉上問題的答案

帶你領略數學的美——《數學之美》讀書筆記(三)

節目結束後,史考利拉著李開復的手,一邊連連讚揚他,一邊又急切詢問李開復:“我想,你昨天晚上一定改程序到很晚吧?”結果李開復回答說:“完全不是那樣。其實,今天的系統和昨天的系統沒有任何差別,你高估了我的編程和測試效率。”

史考利很驚訝地睜大眼睛,不解地問:“你不是答應過我,說是將成功率可以提高到99%嗎?你該不會冒著這麼大的風險上節目吧!”

李開復認真地回答道:“沒錯,這次的成功率的確保證在了99%以上——因為,我帶了兩臺電腦上節目,而且把它們連接在一起。之所以這麼做,我覺得,如果一臺出了問題,我們可以馬上切換到另外一臺電腦。根據概率原則,一臺電腦失敗的可能性是10%,兩臺獨立的電腦都失敗的可能性就是10%×10%=1%,這樣,成功率自然是99%了。”

史考利聽了李開復的想法後,對這位年輕人的智慧大加讚賞,不由自主地豎起了大拇指。

其實在生活中,我們不管做什麼事情,不妨學習一下李開復。多做準備,儘量降低失敗的風險,多給自己一些機會,多嘗試一些不同的方法,如此一來,成功的概率自然會增加。


分享到:


相關文章: