11.23 CIIS 2019丨高琳:基於網絡模型的組學數據分析及在癌症中應用

10月26日-27日,由陝西省委網信辦、陝西省工業和信息化廳、陝西省科學技術廳指導,中國人工智能學會主辦,西安市委網信辦、西安市科學技術局、西安國家民用航天產業基地管理委員會、京東雲共同承辦的2019第九屆中國智能產業高峰論壇在“硬科技之都”--西安舉辦。在27日舉辦的生物信息與智慧健康專題論壇上,西安電子科技大學教授高琳為我們帶來了題為“基於網絡模型的組學數據分析及在癌症中應用”的精彩演講。

CIIS 2019丨高琳:基於網絡模型的組學數據分析及在癌症中應用

高琳 西安電子科技大學教授

以下是高琳的演講實錄:

非常榮幸能在這裡做一個報告,今天是生物信息學的專題,我們也一直在從事這方面的工作。我今天報告的內容也是和生物數據的分析有關係,因為我們的背景是計算機和智能科學方面的研究。今天的主題以網絡模型為基礎,挖掘和癌症相關的模式,試圖探究癌症發生發展的機理是什麼。

這是張老師負責的國家精準醫療的重點專項項目,我參與到了這個項目裡面,我的工作應該是在項目的大背景下,但是不僅僅侷限於這個。現在作為我們來講研究和癌症相關的問題,我們從什麼樣的角度去研究它呢?一般有兩個出發點,要麼我們以某種假設為出發點去對這個問題展開研究,要麼我們是以數據驅動來對這個問題進行研究,而我們的工作是以數據驅動問題的研究。首先我們得有這些數據,目前已經有各種各樣組學的數據,以及其他相關的數據,有了這些數據以後我們如何通過這些數據的分析去找到和癌症相關的模式,,試圖去解釋癌症發生的機理。那麼怎麼樣完成數據的建模分析?我舉例進行說明。

這是我們看到的組學數據,有基因組的數據、轉錄組、蛋白質等等,我們的目標就是如何對這些數據進行一個有效的挖掘,試圖找到疾病相關的基因,包括治療的靶標,最後我們希望在這個基礎上做一些軟件系統,為醫療提供幫助。關於組學數據的理解,比如說基因組數據的理解應該有不同層面的,有單個基因的變化,另外也可能是基因組上的一個鹼基或者片段的變化,另外也可能是比較大的基因組的重組等等,其次就是轉錄組的數據,蛋白質組的數據等,。看一下基因組和轉錄組之間,有表觀組,把表觀組也可以歸到基因組的層面上,基因組的序列沒有發生變化,但是它的表觀修飾發生了變化,修飾的變化也可能導致下游基因的表達失常導致疾病的發生等等。另外在基因組層面上,由於近期生物技術的發展,有了三維基因組的數據。

數據是表象,而癌症的發生是客觀事實,我們的目的是透過現象看本質,數據是對本質的反映,有了這些數據,如何通過表象數據看到癌症發生的本質是什麼。這個是2018年4月5日《Cell》專門對癌症進行了報道,TCGA的數據在不斷豐富,已經有了33種常見的癌症,超過了11000個腫瘤癌症的樣本數據。當然現在也有很多醫院他們自己去測序,由於我們跟醫院沒有合作,只能使用公共的數據去做分析。但是這些公共的數據對於我們來講也是一個契機,現在擺在我們面前的任務,有了這些數據以後我們如何對這些數據進行分析,由於這裡面有不同類型的數據,這樣的話對我們的分析,包括我們對這個問題的理解都存在很大的挑戰。其次近幾年隨著單細胞測序的發展,我們依然可以從單細胞數據層面上去理解癌症,尤其是在癌症的異質性的研究,單細胞數據起了非常重要的作用。

我們現在瞄準的問題如果是癌症,剛才我也講到了有各種各樣的組學數據,有了這些數據以後我們如何對它進行分析,這裡面就要藉助於數學及智能信息的手段對數據進行建模和分析,而我今天在這裡聚焦的是網絡模型,但是既使是通過網絡建模,在後面的問題求解中也需要用到機器學習的方法。我們有不同組學的數據可以進行分析,單細胞的數據依然可以做這樣的工作。單細胞數據,目前最豐富的是轉錄組數據,有甲級化數據,蛋白質組、基因組層面數據目前還沒有看到,相信隨著生物技術的發展,有了對應於BULK測序的數據,將來在單細胞層面上進行組學數據的集成,去研究相關的方法,從這個層面上通過數據集成的方法研究致癌基因,包括治療靶標的預測等等方面的工作。單細胞數據的出現對於癌症的異質性研究帶來了很大的契機,有望對癌症異質性有比較深入的理解。這個是關於癌症,不同病人之間有癌症的異質性,同一個病人內部不同細胞之間也會體現不同的異質性。另外對於基因組的數據來講,現在有了三維基因組的數據,這個數據是希望在三維結構及調控機理的層面上進行研究,我們目前在三維結構的鑑定方面也做了一些工作,這個是內部的一個結構,染色質像毛線團一樣纏繞形成不同層次的結構,從2012年第一篇文章出現以後,出現了大量的這方面的研究工作。當然不同的生物技術,產生了不同的數據。染色質是什麼樣的結構在細胞內存在的,結構之間是什麼樣關係?我們更想了解的是,大家都知道在生物裡面有四個非常重要的詞彙(序列,結構,功能和進化),序列決定了結構,而結構決定了功能,染色體在細胞內通過纏繞形成這種結構,這種結構在功能上面,在疾病的關係上面又有哪些方面的影響呢?這個也是我一直在關注的問題,當然這一方面由於現在數據的缺乏,但是我們已經看到了有這方面的文獻報道,另外也可以從三維基因組層面研究物種的進化。

前面我說了很多數據,對於我們來講數據給我們提供了表象的依據,我們用這些數據可以去進行相關問題的解答,在2011年有這麼一篇文章,計算機科學家和癌症的關係,計算機科學家也可能有助於幫助去解決癌症。因此我們說有了這些數據以後,我們說癌症的研究其實就變成了一個大數據的科學,在這裡面派生出不同領域的研究問題,產生了這麼多的數據以後我們如何對這些數據進行存儲和處理?其次我們如何對這些數據在分佈式的環境下進行分析?另外我們如何來保證這些數據的安全,但是又能夠讓不同的人使用共享到這樣的一些數據?其次我們有了這些數據,如何在這個數據裡面找到有意義的(英),也許(英)可能是潛在的治療靶標,或者解析癌症發生的機理等等。現在底下標藍色的部分,是在這些問題裡面我們所關注到的問題,就是把有意義的模式找出來,通過這些模式試圖解析癌症發生的機理,以及對治療提供依據。這樣以來我們認為癌症是複雜的數據科學的問題,對於這樣一個數據科學的問題,我們現在拿到的是數據,有了數據我們的目的是什麼?我們的目的就是要在數據裡面找到相應的模式,結合我們研究問題的背景做出各種有意義的假設,有了這些假設,我們去建立計算模型。但是在這裡面比較困難的,黃顏色的部分是生物問題,我們對它進行假設的時候,要對問題有比較深刻的瞭解,比如生物的背景,因為問題需要進行假設,才能夠建立起來後面的模型和計算的方法。另外這裡面最最困難的問題,得到結果以後如何對這個結果進行評價,它必須形成一個閉環,也就是說你的問題來源於生物的問題,由於你是通過一些假設和估計去構建這個模型得到解決、得到答案,但是你這個答案它是不是有意義的?目前這對我們來講是最困難的問題。

下面我們考慮有了這些數據以後,我們可以認為它是一個數據科學的問題,如何來對它進行建模。由於這些數據的來源不同,有的數據規模大,有的數據規模小,要把這些數據集成起來,因此它就應該是,我們要通過一種數學的表達和計算的方式來完成它。另外這是站在我們信息的角度,但是反過來站在生物的角度,早期我們有一個分子生物學的概念,它是研究單個的生物大分子,但是2000年的時候美國有一個系統生物科學家提出了系統生物學這個概念,這個理解起來很容易,原來研究的是單個的生物大分子,而系統生物學研究的是分子和分子之間的相互作用關係,因此我們說分子和分子之間的相互作用的關係,它是生物的一個概念,而這個概念對應到我們的信息裡面就是網絡,網絡的節點就可以表示一個分子,而分子之間的關係我們就可以用網絡刻劃它,之後有了系統生物學的概念,我們就可以對應於我們信息裡面的網絡的概念把這個問題給它表達出來。因此我們說系統生物學這樣一個概念剛好可以滿足我們這樣一個需求,可以把不同類型的數據集成起來,我們在網絡這樣一個模型基礎上來開發有效的方法,來解析複雜的生物系統。網絡為什麼能把不同特徵的數據結合在一起呢?網絡我們可以把它表示成不同的類型,比如我們可以把網絡比作多層次的網絡,比如說我們有基因的網絡,疾病之間的網絡等等,也就是說網絡中的網絡來表示它。另外一種我也可以把它表達成超網絡,網絡裡面的每一個節點屬性是不同的,因此我們把它稱為異質性,網絡裡面的節點可能有基因,可能有編碼基因,基因和非編碼基因就是兩個不同屬性的,比如我也可以有其他類型的等等,這樣我們把它稱為異質網絡,這樣我們就可以把不同組學的數據用網絡非常好的表達出來。因此這樣我們就形成了一個觀念,我們以網絡為中心的疾病觀點,這個網絡能夠把我們的數據和系統生物學這樣一個概念非常好的聯繫起來,它能夠去解析基因和表型之間的關係。

為什麼用網絡呢?首先我們拿到了很多數據,有的數據本身就是網絡,比如有病人樣本的網絡,另外在細胞裡,系統之間是分層次的網絡系統,蛋白質的相互作用網絡,代謝網絡,細胞網絡等等,它們本身就是一個網絡,數據本身的存在就是網絡。另外使用網絡建模最後做出來的結果是不是有意義的?我們一直都在關注網絡領域的科學家,其實早在2007年的時候他就寫了一篇文章,他提出了“Networkmedicine”這個概念其涵義是以網絡為基礎的疾病以及藥物的研究,提出這個概念以後後續有很多的研究都是在網絡建模的情況下,做出的很多結果都是符合依據的,包括疾病和疾病之間的關係。我們對於不同組學的數據都使用到了網絡的模型。第一這些數據可以非常容易的建模成網絡,為什麼用網絡呢?因為早期用這個概念有很多成功的例子,還有一個更重要的方面,我們建模成網絡以後怎麼樣完成它的運算,網絡在運算上會帶來哪些便利呢?早期我們可以把複雜網絡的很多理論,包括圖上面的算法結合進來,但是由於有些數據規模很大,我們用網絡非常容易的建模,但是當數據很大的時候,數據結構裡面有圖,圖的規模很大,有些算法的複雜度很大,怎麼辦呢?近期的機器學習也給我們帶來了契機,我們用網絡非常好的建模,但是如果我們把機器學習或者表示學習和網絡結合起來,我們就可以解決運算大的問題,我們可以把機器學習和生物網絡結合起來,我們在網絡上進行深度的學習,我們在網絡上去進行表示學習,這個主要是解決網絡建模數據規模大的問題。

為什麼我們用網絡建模,從方法的層面也講了,現在大家可能比較模糊,你用 網絡建模以後你在裡面找什麼東西,它是有什麼意義的。我從四個方面介紹一下,對於一個網絡來講無非是兩個要素,一個是頂點的要素,一個是邊的要素,其次是頂點和邊連成子結構,對於網絡裡面的節點來講,有了網絡以後我們會有一個問題進行網絡裡面的節點類型進行預測,比如說節點的分類問題。另外有了這個網絡以後,網絡中邊的關係隨著時間是發生變化的,我們在預測網絡裡面是否會有新的邊出現。接下來是子結構,邊和邊形成子結構,這種子結構在我們社交網絡裡面就是社團,我們生物裡面把它叫做模塊。第四個層面,有了兩個網絡以後我怎麼樣去衡量兩個網絡之間的相似性。舉例說明,有了一個網絡如果進行節點的預測,比如蛋白質功能的預測,我們在這裡對蛋白質功能進行分類就可以預測到蛋白質的功能;比如藥物重定位的問題,現在有一個很重要的問題,在這裡藥物是不是能夠治療打問號的疾病,相當於網絡中新的連邊的預測。還有稠密模塊的挖掘問題,其實就是在網絡裡面找一個稠密的子結構,這個網絡裡面找到基因互相連接的模塊,這幾個基因聯合起來導致疾病的發生。它可以和機器學習結合,這就是我剛才提到的表示學習問題,我們怎麼樣通過表示學習來解決計算難度的問題。

下面給舉例說明我們關於癌症的幾個研究,癌症的子分類,甲級化癌症分析以及組合治療靶標的識別問題。關於癌症子分類目前有很多方法,但是每個方法都說自己好,但是怎麼樣去評價,我們做了一個軟件,希望對已有的5種典型算法做出評價,這是一個開放式的軟件,用戶有新的算法以後,可以和軟件中已有的算法做比較。另外我們也對泛癌症在甲級化層面做了分析,我們發現了一個非常重要的現象,為什麼這個enhancer區域在癌症樣本中表現出顯著高甲基化?一般認為,甲基化的變化與轉錄因子的綁定和解綁定密切相關,我們發現,此區域是EZH2的綁定位點,因此我們認為在癌症樣本中EZH2的解綁定導致此區域失去了保護,從而發生了高甲基化。因此我們得出一個簡單的模型用來說明此enhancer區域如何在癌症發生中發揮功能:即在正常樣本中,由於EZH2的綁定,保護其不被甲基化,從而激活BVES和PRDM1兩個腫瘤抑制基因的表達,從而抑制腫瘤的發生,而在tumor樣本中,EZH2解綁定導致此區域發生甲基化,從而抑制了BVES和PRDM1的表達,促進了癌症發生。

最後介紹我們做的組合治療靶標的工作,這個工作的動機是什麼呢?由於現在癌症病人的治療,前面有手術有化療,包括化療靶向治療包括現在的免疫治療,但是就在各種各樣的治療手段裡面會產生一個耐藥性的問題,因此我們是不是可以進行組合治療,由於時間的緣故,不再仔細介紹了。

總結一下,因此我們的工作,有了這些數據以後怎麼樣用數據建模,另外如何把不同的數據集成起來,最後得到的結果怎麼樣進行評價,有沒有重要的生物發現,這可能才是最核心的,因此現在人工智能的方法和生物數據分析結合起來,期待有重要的發現。我們現在也做了三維基因組方面的工作,這個是我們做的關於基於三維基因組數據的結構鑑定,我們想期待通過這個結構將來研究其與生物功能的關係。

我在這裡非常感謝這幾個博士生,非常感謝NSFC項目的資助,感謝科技部重點專項資助!

(本報告根據速記整理)

轉發請註明轉自中國人工智能學會


分享到:


相關文章: