概率統計魅力無限:從Alphago,DNA分析到搜索引擎

概率统计魅力无限:从Alphago,DNA分析到搜索引擎

點擊上方“數學英才”可以訂閱哦!

演講題目: 概率統計,魅力無限

演講人: 馬志明院士, 中國科學院數學與系統科學研究院

概率統計的思想和方法正滲透到當代人類社會的眾多科技領域和社會領域。概率統計在現代科學技術和社會經濟領域的應用日益廣泛深入,它與其它學科,以及與數學的其它分支相互交叉、滲透,取得了極其豐富的成果, 展現了概率統計學科的無限魅力。當然,雖然概率統計的魅力無限,但我自己的學識卻是有限。在今天的報告中,我將與各位分享我的一些點滴體會。我先說一說統計學科已發展成為在當今科學與社會應用非常廣泛的重要學科。在我國更是有特點,成立了統計一級學科。統計與其它領域交叉產生許多重要分支,如金融統計、保險精算、商務統計、計量統計、生物統計、保險統計和應用統計等。由於我的研究方向是概率與隨機分析領域,因此在下面的報告中對概率與隨機分析講的多一些。

概率統計方法近年在數學學科取得的標誌性成果

近年來概率統計日益滲透到數學的其它分支,取得了極其豐碩的成果,並且不斷地產生新的學科分支。比如:隨機偏微分方程、隨機動力系統(這兩個正是樓上本次學術會議的內容)、隨機微分幾何、隨機共形理論、隨機圖與隨機複雜網絡、隨機算法、倒向隨機微分方程、非線性數學期望,等等。概率統計與數學其它分支相融合,促進了數學學科的發展,最有代表性的事實就是近年來多項國際數學大獎都與概率統計有關:從2006年至2016年這十年中的菲爾茨獎(曾被譽為數學中的諾貝爾獎),每屆都有概率,而且非常多: 2006年四位菲爾茨獎得主中,有三個半與概率有關,其中Werner與Okounkov可算是概率科班出身,Terance Tao 的許多研究涉及概率與隨機矩陣,Perelman的研究工作用到對數Sobolev不等式,也與概率有關; 2006年的Nevanlinna獎頒發給了Kleinberg, 他的研究工作是關於隨機圖和隨機複雜網絡及其算法;Gauss獎設立於2006年,以獎勵對人類其他領域做出突出貢獻的數學家,首屆Gauss獎頒發給了Ito, 獎勵他發明的隨機積分對人類的貢獻; 2007年Abel獎(與諾貝爾獎獎金相同)獎給了國際著名概率學家Varadhan; 2010年菲爾茨獎四位得主中,Villani, Smirnor, 和Lindenstruss 三位的工作都與概率有關; 2014年Martin Hairer由於在隨機偏微分方程的傑出貢獻獲得了菲爾茨獎, 他創造的正則性結構,建立了新的框架,統一了Rough Path理論和經典的Taylor展開理論。這一理論可以用來研究隨機偏微分方程和數學物理方程,預期在數學和物理的許多領域都有應用。用這個新的數學框架可以對原來不適定的一些隨機偏微分方程給出了嚴格的數學意義,比如界面運動產生的KPZ方程,統計力學中臨界狀態的宏觀行為等。

深度學習和強化學習中的概率統計

人工智能下棋已經有很長曆史,過去IBM有一個深藍團隊,用“深藍”計算機“下國際象棋。國際象棋所有棋局可能性約,圍棋的所有棋局的可能性大約是,而全地球的原子總數也只有。圍棋所有棋局遠比地球所有原子數目多,這真是一個大數據。過去IBM團隊用“深藍”同人類下國際象棋時,可以把人所有下國際象棋的步驟窮舉。但是,圍棋做不到,圍棋不能窮舉!你想,這麼大的天文數字怎麼能窮舉?!圍棋只能用隨機方法、只能用概率方法,這正是體現了概率統計的重要性。

谷歌的研發團隊用深度學習和強化深度學習為 AlphaGo訓練了四個神經網絡,用通俗的語言,這四個網絡分別是:快速走子網絡、走棋網絡、強化學習網絡和估值網絡。他們先用3千萬局人類下棋的棋譜來有監督地學習出兩個模型:其一是用13層的卷積神經網絡學出來的走棋網絡,另一個是用邏輯迴歸學出來的快速走子網絡。這兩個網絡都可以近似理解為基於3000萬個有標註的數據< s , a >,評價在當前局面s下,棋子落在某一位置a的概率,也就是p(a|s)。其中“快速走子網絡”可以被看作是“走子網絡”的輕量級版本,它能夠比“走子網絡”快1000倍,但是精確性較差。在走子網絡的基礎上,通過機器和機器自已對弈,由產生多達3000萬個標註樣本,每個樣本的局面s都來自不同的一局棋,用大量增加的樣本訓練出強化學習網絡。而第四個網絡,是在走子網絡和強化學習網絡的基礎上訓練出來的估值網絡,它可以估出在當前棋局下勝算的概率值。總體來說,前三個神經網絡都以當前圍棋的對弈局面為輸入,經過計算後,輸出可能的走子選擇和對應的概率。概率越大的點意味著神經網絡更傾向於在那一點走子,這個概率是針對輸入局面下所有可能的落子點都有一個概率。第四個神經網絡是用來進行價值判斷的, 輸入一個對弈局面,它會計算出這個局面下黑棋和白棋的勝率。我的理解,四個網絡都是概率,前三個都是概率矩陣,第四個是一個概率值。

真正對弈的時候,用的是蒙特卡羅樹搜索(MCTS)算法, 它也是吸收了概率的思想。 現在很多的計算都是用蒙特卡羅方法, 它的中心思想是按照一定的分佈去落點, 因為分佈是給定的,落點落多的時候, 自然地,原來分佈所要求的函數就能夠得到, 計算機也就會把它繪出來。AlphaGo怎麼下圍棋?剛才四個網絡做好了,相當於四個大腦。現在從當前位置的棋子出發,它要計算不知多少遍,才走出一個棋子。它怎麼走?直觀地解釋,它根據神經網絡選出一個路徑走,走到一定程度讓它擾動一下,再繼續走下去,看它是輸還是贏,最終給出一個判斷這一步走子輸贏的值,這個值用快速走子網絡(它能很快把棋走到底決出勝負)和估值網絡估出來的輸贏概率按一定公式計算出來。然後返回到原來準備要走的地方。這就是蒙特卡羅樹搜索的一個基本過程。這樣的過程可以不斷重複,一直算到電腦認為最佳為止,或者算到規定下一步必須走子的時間為止。電腦根據在這之前的所有計算信息綜合出一個值來,然後決定下一步在哪落子。

我們現在看來,人工智能下圍棋把世界冠軍下贏,除了電腦計算速度非常快之外,它的算法中概率統計是離不開的,功不可沒!這是概率統計魅力無窮的一個實例。

  • 概率統計在DNA序列分析中的應用.

下面講講概率統計在DNA序列分析中的應用。這部分內容與我們目前的研究方向有關。今年7月3號我在上海財大舉行的國際生物統計中國分會做了大會報告,下面我將取自那裡的一些材料,來說明概率統計的作用。這幾年我們做應用,一方面與微軟合作,另一方面與生物學家合作。我們一直在唸Rick Durrett 的《Probability Model and DNA Sequence Evolution》和楊子恆最近的一本書《Molecular Evolution: A Statistical Approach》(2014年出版)。這一學期,我們學生都在唸他這本書。去年,北京召開了國際工業與應用數學大會,我是大會程序委員會主席,挑選了27個大會報告。同時,我和楊子恆共同組織了一個小的Symposium《Mathematics in Population Genetics and Evolution》, 其主題有下面的一段話:“This symposium will focus on probabilistic modelingand statistical analysis of modern genetic and genomic data, and thestatistical and computational challenges that we face。”隨著當代基因和基因組數據的迅速增加, DNA序列分析越來越需要生物學、數學、統計學和計算機科學的共同參與和交叉合作。這方面研究成果也很多,也很活躍。近年來我們研究組與中科院基因組所、上海馬普生物研究所等單位的生物學家合作,也做了一些研究工作。我們的研究成果包括:基於同源一致片段推斷人口遷移歷史 , 基於祖先片段推斷人口混合歷史,帶有重組的溯祖新模型,等等。另外,我的學生朱天琪與楊子恆等人用真實的DNA數據,結合化石提供的校準區間信息,估計生物進化的時間。他們最主要方法是概率統計的貝葉斯分析,由於改進了貝葉斯分析的初始分佈,他們得到相對準確的哺乳類動物的分化年代。這些結果都充分展示了概率統計的魅力。

  • 搜素引擎中的概率統計.

概率統計與信息領域的交叉也是一個非常有說服力展示概率統計魅力的例子。我前些年在各地作公眾報告時經常講這個例子。

這是我在 Google 中搜尋中國科學院出現的頁面。頁面上標記有 874萬條結果,用時0.15 秒。計算機很聰明, 並沒有把 874萬條結果不排序地全部列出, 而是把最重要、最相關的結果排在前面。計算機怎麼會識別哪些結果比較重要, 哪些結果比較不重要呢? 它能讀懂這些頁面的內容, 然後根據內容來確定頁面的重要性嗎? 顯然不可能, 現在的計算機還沒有發展到那麼先進。實際上很多搜索引擎公司做的一件主要的事, 就是網頁的排序。網頁排序包括重要性排序和相關性排序,都要用到概率統計。相關性排序我今天可能沒時間講, 我就講講網頁的重要性排序, 下面我用概率論和馬氏過程理論來說明網頁重要性排序的原理。

這裡右邊是我們的互聯網, 當然裡面有上萬上億個網頁, 為了能夠說明清楚, 這裡就假定我們有 6 個網頁。假如你現在瀏覽頁面 1, 頁面 1 有兩個超鏈接, 一個指向 2,一個指向 3, 下一步你很可能點一個超鏈接就到頁面 2, 或另一個超鏈接到頁面 3, 也就是說從頁面 1 出發, 可能有 1/2 的概率到頁面 2, 1/2 的概率到頁面 3。同樣的道理假如從頁面 3 出發, 頁面 3 有三個超鏈接, 所以在瀏覽頁面 3 的時候,可能有 1/3 的概率到頁面 1, 1/3 的概率到頁面2, 1/3的機率到頁面 5, 以此類推。如果你現在瀏覽的頁面沒有向外的超鏈接, 比如頁面 2, 那麼在瀏覽頁面 2 時, 下一步也許有相同的概率到任何一個其它頁面。當然我這樣描述的上網動作並不全面, 因為你也可能不順著超鏈接到下一個頁面, 而是通過輸入一個關鍵詞或者是一個網址進入下一個頁面。假定有概率 α 順著超鏈接到另外一個頁面, 同時有 1−α的概率通過輸入一個網址或是關鍵詞去到另外一個頁面, 這兩個動作綜合起來就是我們上網衝浪的動作。這是兩種隨機遊動組合成的一個隨機遊動, 連續上網衝浪的動作構成一個馬氏鏈, 它的轉移概率由我們剛才描述的兩個上網動作來確定。這是一個不可約馬氏鏈, 它有唯一平穩分佈。 Google把馬氏鏈的平穩分佈稱作 PageRank, 並以此來為頁面重要性排序。一個頁面的 PageRank 值越高, 即平穩分佈在一個頁面的值越大, 就認為這個頁面越重要。用概率的理論上可以嚴格證明, 平穩分佈在一個頁面的值正好等於點擊這個頁面的平均訪問率, 所以用這個值來為頁面的重要性排序很合理。不可約馬氏鏈的平穩分佈在計算機上運用迭代法容易實現。但由於互聯網的規模很大, 實際計算時也需要很長時間。這種計算頁面重要性的算法出自 1998 年就讀斯坦福大學 (Stanford University) 的博士研究生 Sergey Brin 與 Larry Page, 他們把這個算法稱作 PageRank 算法, 並且編寫了一個 PageRank 搜尋工具。他們發現, 網絡越大, 鏈接越多, 這個引擎提供的結果就越準確。於是, 他們將新引擎命名為 Google, 這是 Googol 的變體, Googol 是一個數字名詞, 表示 10的 100 次方。 Brin 與 Page 於 1998 年在第七次國際 World Wide Web 會議 (WWW98) 上公佈他們的論文“The Page Rank citation ranking:Bringing order to the Web”時, 正在用自己的宿舍作為辦公室初創產業, 這一產業後來發展為龐大的 Google 公司, Brin 和Page 現在已躋身世界上最有錢的人之列。 PageRank 算法是信息檢索領域裡一個革命性的發現, 這個在信息檢索領域看似很困難的問題, 用一個馬氏鏈就能就解決了, 概率統計的用處有時真是不可估量。我還要補充強調一下, 現在各搜索引擎公司對頁面的排序, 除了用到PageRank 算法, 或類似於 PageRank 算法提供的重要性排序外, 還要考慮相關性排序和諸多其它因素。

從 1998 年到現在, Google 的 PageRank 算法作為網頁排序的優點已經充分顯示, 而缺點也逐漸地暴露出來, 最大的缺點是它只利用了頁面結構, 沒有考慮網絡用戶的感情。其實現在有很多的垃圾頁面, 它的 PageRank 可以排得很高。甚至有些 SPAM 公司, 自已搞個服務器, 讓許多頁面互相連結, 如果對方給錢, 公司就將你的頁面連結上去, 從而惡意提高頁面排序。這個問題, 特別是在前幾年, 成為搜索引擎公司非常關注的問題, 怎麼樣能夠克服這個缺點, 當時很多搜索引擎公司都在做。我們跟微軟亞洲研究院在這個問題上也有些合作的關係。當時是這樣開始的, 記得大概是 2005 年吧, 我那時候對隨機複雜網絡感興趣, 辦了一個隨機複雜網路的討論班。微軟亞洲研究院的一位年輕工作人員來找我, 想請教我一些問題。我藉此請他在我們討論班作報告, 他向我們介紹了 Google 的故事。以後我們跟微軟亞洲研究院開始合作, 我的學生也到微軟作實習生, 共同培養人才。有一次, 一位年輕的研究員和我的學生一起來找我, 把用戶上網紀錄數據拿給我看,問我由這些數據, 能不能夠判斷出頁面的重要性, 或著說能不能挖掘出什麼樣的訊息來。我們坐下來開始想這個能做什麼用。當然我們是學概率的, 所以我們就想到這是個隨機過程, 它不是確定性的, 當然它也是跳過程, 一跳一跳的。我們猜想其中比較關鍵的是, 在這個頁面上你下一步到哪個頁面去, 或者你在這個頁面上停留多少時間, 這些在很大程度上, 只跟頁面的內容有關, 而跟你以前訪問過哪些頁面無關。因此作為一階近似, 這個過程很可能是一個馬氏過程, 它將來的發展只與現在有關, 跟過去無關。另一個想法, 你上午看這個頁面或下午看這個頁面, 你的動作可能差不多, 所以還應該是時間齊次的。所以當時我們就分析, 也許可以把所有人群上網的動作, 近似的看作是一個時間齊次的馬氏跳過程。當然,要判斷它是不是時間齊次馬氏跳過程, 要用到概率知識, 假如真的是時間齊次馬氏過程, 那麼用戶在一個頁面停留的時間, 應該是負指數分佈, 這是馬氏過程理論的一個基本結果。我們建議微軟把他們的數據拿來檢驗一下, 於是微軟亞洲研究院的相關研究組用真實資料作了大量實驗模擬, 由我當時在微軟實習的學生劉玉婷設計算法,發現用戶在網頁的停留時間基本服從負指數分佈。這個分析出來之後, 我們相信可以用馬氏過程來研究上網動作, 微軟亞洲研究院成立了一個小組主攻這個項目,劉玉婷當時作為微軟的實習生也在這個研究小組。這個研究小組做得非常好, 在微軟相關研究員的帶領下, 他們克服了種種難關, 每一步都在課題組內反覆論證,深入探討, 反覆模擬實驗。這裡面含有許多奇思構想和巧妙的數學。微軟亞洲研究院從產品部門調來大量數據, 做了大規模模擬實驗。2008 年 7 月, 在新加坡召開的的第 31 屆國際信息檢索大會上, 劉玉婷報告了他們的論文:《瀏覽排序: 讓因特網使用者為頁面重要性投票》, 論文獲得了會議設立的唯一最佳學生論文獎。這篇文章, 據說他們修改了八十一次, 在新加坡得獎之後, “Browse Rank”成了業內的熱

門話題。最熱的時候, 輸入關鍵詞 Browse Rank 有 157,000,000 個結果。當時網頁的文章, 有的題目是“Browse Rank vs Page Rank”, 有的說“Microsoft Lauches Browse Rank To CompeteWith Page Rank”, 還有“Live Search is researching a rankingfeature similar to Google’s Page Rank called Browse Rank”, 等等。網上還有一個以“BrowseRank the next PageRank”為題目的視頻介紹微軟亞洲的研究人員開發的 Browse Rank。這是前幾年的事, 當然了, 一個新產品的開發還與許多其它因素有關, 現在也沒有 Browse Rank 出現, 但是說明當時這個工作在訊息檢索領域引起了一些關注。我們與微軟現在還有合作, 現在我還有學生在微軟, 已經是正式的員工。從做科學研究的角度來說, 我們感到高興的是我們第一個用 Browsing Process 刻畫了真實的用戶上網行為。我相信今後人們在研究用戶上網行為時, 一定會想到Browsing Process, 應用並發展 Browsing Process 的理論和實踐。上面說到我們發現用戶上網的一階近似可以用馬氏過程來刻畫, 後來我們又有進一步發揮, 在這個基礎上提出了 web 馬氏骨架過程,之所以提出 web 馬氏骨架過程, 是因為後來研究手機網的搜索引擎時, 發現它不完全是馬氏過程, 最多可以算是 web 馬氏骨架過程, 也就是說它有一個骨架是馬氏的, 而它的等待時間不僅依賴當前頁面, 還依賴以前的頁面。由於手機上面網頁的超鏈接, 跟一般普通網頁超級連接的設計不一樣。

數學英才

中學生英才計劃

推送數學微慕課和學習資料


分享到:


相關文章: