03.02 醫療大數據的分析和挖掘發展現狀如何,未來會有哪些應用?

空悟無心


大數據與典型的關係數據庫不同。這對於CIO或IT主管來說是顯而易見的,但是對兩個系統如何不同的簡要解釋將說明為什麼大數據目前正在進行中 ,但仍然擁有如此巨大的潛力。

大數據和關係數據庫最大的區別在於大數據沒有關係數據庫所具有的傳統的表格和列結構。在經典的關係型數據庫中,需要一個數據模式(例如,人口統計數據位於一個表中,通過像患者標識符這樣的共享標識符連接到其他表)。每一塊數據都存在於其明確的位置。相比之下,大數據幾乎沒有任何結構。數據是以原始形式從源系統中提取的,存儲在一個龐大的,有點混亂的分佈式文件系統中。 Hadoop分佈式文件系統(HDFS)以簡單的分層形式存儲多個數據節點的文件目錄。通常,數據以高度壓縮的形式存儲在數據節點中的64MB塊(文件)中。

由於其非結構化的性質和開源的根源,大數據的擁有和操作比傳統的關係數據庫要便宜得多。 Hadoop集群由廉價的商品硬件構建而成,它通常以直連(DAS)配置的傳統磁盤驅動器而不是昂貴的存儲區域網絡(SAN)運行。大多數關係數據庫引擎都是專有軟件,需要昂貴的許可和維護協議。關係數據庫還需要重要的專業資源來設計,管理和維護。相比之下,大數據不需要太多的設計工作,而且維護起來相當簡單。大量的存儲冗餘允許更多可容忍的硬件故障。 Hadoop集群旨在簡化失敗節點的重建。

順便說一句,如果你想知道更多硅谷或者美國科技的前沿信息,可以關注微信號“硅發佈”。


硅發佈


現狀,路還很長

去年10月,國家健康醫療大數據中心及產業園試點在南京江北新區開展建設。今年10.28,國家健康醫療大數據展示中心正式開館,標誌著一期工程圓滿完成。

健康醫療大數據涵蓋每個居民全生命週期的健康狀況,居民健康檔案和電子病歷是其主要的數據來源。除了醫療數據,還包括健康、保健、預防等數據。簡單來說就是,一個孩子從出生開始,降生信息、疫苗接種信息等就已經實時更新在一份專屬健康檔案裡。2016年10月起,千百萬人的電子健康檔案陸續生成,匯聚起一個龐大的大數據庫。

另外還有一些基層的醫療衛生機構,會主要針對65歲以上的老人開展健康管理服務,提供了龐大的數據量。

但大數據的“大”,除了數據收集量的龐大,還需要實現數據互聯互通。比如計劃免疫系統和疫苗接種系統間有很多重複信息,如果各為“信息孤島”就會徒增工作量。如果相互關聯的數據真正流動起來,一個身份證號就可以將一切貫通。

目前一些省份,基本的系統安裝工作大多已完成,二級以上醫院,90%已實現HIS系統和省級雲平臺的對接。


未來,開個腦洞

電影《超能陸戰隊》裡有一個“大白”,能實時監測人的身體各項指標,甚至包括情緒波動,還會提前給健康預警,是個健康管家的角色。

現在共享經濟這麼火爆,設想一下未來,如果醫療監測設備也共享了?感到身體不適就在街上找到一個什麼“共享體檢室”,直接根據大數據判斷你目前的身體狀況。

或者,掏出手機打開某APP輸入“頭疼”,之後通過某類外接或內置傳感器,系統實時測量你的數據,並根據數據庫中你以往的健康狀況,比如家族病史、過敏史、體檢情況、驗血報告等等,對你當前的病情進行判斷。如果吃藥可以解決,就自動查找藥店,下單;如果必須去醫院,系統直接幫你掛號並把當前信息發給周圍的醫院,必要時還順便幫你打了120……


南七道


大數據是指需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產。大數據與醫學的結合可以促進醫療事業的快速發展。

主要可以體現在以下幾個方面:

第一,應用於臨床診斷、治療。近年來,基因測序十分搶眼。專業公司通過對患者的小部分DNA進行排序,標註出幾十個特定的基因缺陷來提醒專業醫生對某患者採取個性化治療。蘋果公司喬布斯當年患上胰腺癌,這種癌中之王十分難治。喬幫主通過檢測自身所有DNA和腫瘤DNA,醫生得到了喬幫主本人所有基因密碼的數據,採取有針對性的、個性化的用藥。如果一種藥效減弱,醫生會再更換另外一種藥物。雖然沒有最終挽留住喬幫主的性命,但是實際上已經將其壽命延長了好幾年。

第二,應用於公共衛生部門。公共衛生部門可以通過覆蓋全國的患者電子病歷數據庫,快速檢測流行病、傳染病,進行全面的疫情監測,並通過集成疾病監測和響應程序,快速進行響應。這將帶來很多好處,包括醫療索賠支出減少、傳染病感染率降低,衛生部門可以更快地檢測出新的傳染病和疫情。比如,2009年,谷歌公司員工通過“哪些是治療咳嗽、發熱的藥物”等類似詞條,將它們用於一個特定的數學模型後,成功的預測了甲型H1N1的爆發和流感的發源地。美國公共衛生部門獲得了極有價值的數據,面對這次流感做好了充分的準備。

第三,應用於保險公司。保險公司作為醫療活動的支付方一直處於被動狀態。面對過度醫療、騙保等各種問題一直束手無策。雖然想出各種辦法應對,但是需要付出大量人力、物力、財力,才能取得很小的成效。但是,通過對大數據分析來促進整個醫療系統的價格透明度。促使保險公司、醫院、醫生之間建立新的合作關係,並搭建可能對提高價格透明度有所幫助的新的績效薪酬模式。保險公司將會越來越多地參與患者的診療過程。

總之,醫療大數據的運用還有很長的路要走。


薛洪言


大數據,不管吹成什麼樣,它最後的目的都不是為了數據本身,而是基於數據預測未來。

數據,是最底層的東西。基於數據,發現了一些信息。在這些信息上進行分析,得出了規律。而這個規律,將在未來進行驗證,成為結論。這些結論,就可以用來指導實踐,並且持續迭代。

在利用數據進行預測的場景中,由粗到細可以簡單粗暴地劃分成兩大類:行為定向,個性化推薦。這兩個詞,都是互聯網商業廣告中經常會使用的術語,對大數據研究領域來說並不嚴謹,但足夠說清是怎麼回事了。

  • 行為定向,是要弄明白這個人屬於哪一群人。比如你上了淘寶,瀏覽了母嬰產品,那麼你會不會是一位女性,而且可能在備孕、或已經當了媽媽,給你打一個母嬰標籤。後來發現你還買了啤酒,那猜測你可能是男性,打一個男性標籤。接著又發現你買了很多高中參考書,猜測你可能學生,打一個學生標籤。標籤之間未必能兼容,但無所謂的,你身上標籤越多,能觸發的廣告類型就越多,總會有一個命中你的。所以簡單來說,「行為定向」要的不那麼準確,是類別層面的一個預測。

  • 而個性化推薦,要想足夠個性化,數據就需要精確得多。比如同樣是淘寶,發現你買了高中輔導書,幾件籃球服,一組日拋的隱形眼鏡,猜測你可能是一個喜歡運動的高中生。但過了挺久了你也沒再買隱形,日拋的早就用完了吧,是不是不戴了?接著你最近買了高配置顯卡的臺式機,還買了好多根內存條,猜測你可能興趣已經從打球轉移到吃雞了,那麼你是不是需要一款高刷新率的電競顯示屏。可是根據你一直以來的消費水平,覺得價位超過 8000 的這款主流顯示器你未必買得起,所以給你推薦一臺正在做活動的 5000 的液晶屏,還搭配滿 1000 滿 100 的券,要不要剁一次手?

這兩個例子非常粗糙,淘寶實際上也不是這麼做的,只是提供一下邏輯上的描述而已。

而醫療大數據的未來應用,就會在這兩個方向上各有幫助:

  • 在疾病分類和易感人群描述上,大數據就能起到類似「行為定向」的作用。有什麼樣基因特徵的人容易得什麼病,哪些生活習慣會增加哪些風險,某些症狀搭配另外的表現同時存在時可能是由什麼病因導致的,等等。可以粗糙地理解成,這個指導會在保健領域、基礎醫療領域提供更大的幫助。

  • 而如果數據收集得足夠精細和充分,就有可能在醫療中實現「個性化推薦」的效果。根據自己的實際基因特徵和生活習慣,有針對地給出保健建議和診斷說明,並預測出未來身體可能存在的風險和病變,及早防治。這個更像是一個智能的私人醫生,從個體的層面(而非社會群體防治的層面)來給出醫療建議。

這兩類之間並沒有明確的區別,只是程度上的不同而已。就像 alphaGO,最初它在學習時,面對大量的人類棋局資料,可能是在嘗試推算不同打法的勝率。但等到訓練充分了,它就可以實時計算出每一步棋的勝率影響,不再是從固定棋局的角度分析問題了。最近的新聞是,alphaGO 的升級版,放棄了從人類棋局中進行學習,直接「無監督」自學,不考慮什麼流派打法純粹為了取勝而下棋,結果很快就全面超過了 alphaGO。這說明人類對圍棋的經驗,實際上成為了 AI 學習時的「噪音」。

這也就說明,在醫療大數據的未來,很可能當前人類醫生的各種人類認知層面的經驗,都遠遠談不上準確有效,或許會被 AI 醫生完全取代。


用戶5824975172


討論“醫療大數據的發展現狀”其實就是談大數據在醫療行業的嵌入程度,所以回答這個問題,要先了解清楚大數據的本質。

大數據,一種規模大到在獲取、存儲、管理、分析都無法用傳統數據庫、軟件工具處理的海量“信息資產”。但是大數據的戰略意義並不在於掌握這龐大的數據信息,而在於對這些含有意義的數據進行專業化處理。

那麼醫療大數據現在及未來的應用主要為以下幾個方面:

應用於醫生。大數據最直接的效益就是產生疾病的臨床指南,醫生根據指南可以做出已經證實(或普遍認為)的最優臨床決策。

應用於科研團隊。真實詳致的大數據是科研的基礎,大量的數據可以排除多種干預,確定臨床上最有效及具有成本效益的治療方法。

應用於醫藥機構。建立更上一個階層的預測模型,降低研發成本、縮短研發時間以及提高藥物的治療成功率。

應用於商業。使用醫療大數據,產生了一系列服務於特定人群的商業項目,例如特殊疾病的商業險。

應用於衛生等部門。大範圍監測公眾健康,有利於疫情的快速監測、降低傳染病感染風險等。

但是醫療大數據在我國的現狀其實是比較滯後的,問題在於無法得到大量優質的病歷數據。

主要原因一是,數據採集困難。說三甲醫院每天的接診量你可能沒有概念,那就從醫生的日均接診量來看。調研數據顯示,2016年中國醫生人群整體日均診療次數為34次,醫生在記錄病歷時難免從重從簡記錄,這樣直接造成詳盡的數據收集困難。

其二,數據結構化困難。人體結構複雜,學醫的大多5+3出來也只略懂皮毛。

現在並沒有多少兼備專業領域醫學知識、程序邏輯與空閒的人才去做出合適的記錄工具。並且大多數醫院都使用以本院為基準的病歷結構,甚至還有的以excel、word等為記錄工具,給數據的統一性、可用性帶來巨大障礙。

其三,數據分享困難。病歷是及其隱私的數據,帶來的直接負面影響就是每天都要接到幾個賣藥的、身體健康管理的電話。

總而言之,醫療大數據的應用前景廣泛且明朗,但目前為止,路還很長。


分享到:


相關文章: