機器學習+數據可視化,老中醫逆襲的祕密武器!

『姐是老中醫,專治吹牛逼』——著名歌唱家花粥

前言

中國古籍,汗牛充棟,源遠流長,即使皓首窮經,人一生能博覽的書籍也是少之又少,能深入參悟的就更是稀有。

好在現在是AI時代,通過機器學習可以快速大量處理包括文本在內的各種數字文檔,藉助AI,我們也可以提高對於知識處理和提煉的效率。

本文將以橫跨明清兩代的醫學家陳士鐸的畢生心血《醫學全書》為例,用AI研習經典,用人工創作智慧。

勵志照亮人生,程序猿改變世界。

背景介紹

陳士鐸,字敬之,號遠公,別號朱華子,又號蓮公,自號大雅堂主人,浙江山陰(今浙江紹興)人。約生於明朝天啟年間,卒於清朝康熙年間。據嘉慶八年《山陰縣誌》記載:“陳士鐸,邑諸生,治病多奇中,醫藥不受人謝,年八十餘卒。“

書籍介紹

陳士鐸是清代初期的著名醫學家,一生的著述非常多。

《醫學全書》總共3.7M,漢字約120萬字,全部文言文。一個勤奮的讀者,每天閱讀2000字,需要600多天完成第一輪學習。

至於歸納整理,就需要更久的時間。所以說,學醫需謹慎。

框架選型

中文處理文本,第一步分詞,第二步向量化。

1、分詞

分詞我選用了開源項目結巴分詞:https://github.com/fxsjy/jieba

自從github嫁給ms,總感覺心裡很失落,懷念啊我們的青春啊。

機器學習+數據可視化,老中醫逆襲的秘密武器!

同時,考慮到結巴分詞對文言文醫學的不熟悉,需要手動設置用戶自定義詞,示例如下:

機器學習+數據可視化,老中醫逆襲的秘密武器!

2、向量化

因為這次的主要目的是尋找詞語關係,所以選擇了word2vec作為工具庫。

word2vec也叫word embeddings,中文名“詞向量”,作用就是將自然語言中的字詞轉為計算機可以理解的稠密向量(Dense Vector)。

word2vec模型其實就是簡單化的神經網絡。

word2vec不僅可以在百萬數量級的詞典和上億的數據集上進行高效地訓練,還可以得到訓練結果——詞向量(word embedding),可以很好地度量詞與詞之間的相似性。

word2vec常見應用:

用 Word2vec 尋找相似詞

根據上下文預測某個詞語出現概率

數據處理

良好的數據是機器學習模型的食材。

經過結巴分詞之後的segment還需要手工過濾掉標點符號和很多奇怪的詞語,這些詞語如果不去掉,在後面的向量相似度上會帶來很多困擾。

機器學習+數據可視化,老中醫逆襲的秘密武器!

訓練模型

機器學習+數據可視化,老中醫逆襲的秘密武器!

訓練模型輸出相似度

機器學習+數據可視化,老中醫逆襲的秘密武器!

這裡以六經為例,目的是看看與這幾條經脈最親密的是哪些東西。

老中醫順手普及:

少陰:分足少陰腎經和手少陰心經,對應心、腎。

太陰:分足太陰脾經和手太陰肺經,對應脾、肺。

厥陰:分足厥陰肝經和手厥陰心包經,對應肝、心包。

少陽:分足少陽膽經和手少陽三焦經,對應膽、三焦。

太陽:分足太陽膀胱經和手太陽小腸經,對應膀胱、小腸。

陽明:分足陽明胃經和手陽明大腸經,對應胃、大腸。

以上對應的五臟(心肝腎肺脾)和六腑(膽,心包,膀胱,小腸,大腸,三焦)並非西醫意義上的器官。

數據樣本

機器學習+數據可視化,老中醫逆襲的秘密武器!

以上美觀大方的數據表格由DataHunter數據可視化軟件生成。

可視化

為了直觀和顏值,我們採用DataHunter最新的1.8版數據可視化軟件來呈現數據。

新版新增了包括熱力圖、箱線圖、關係圖、樹狀圖、玫瑰圖、桑基圖、儀表盤、象形圖,正好可以用來展示多維度量的數據。

機器學習+數據可視化,老中醫逆襲的秘密武器!

機器學習+數據可視化,老中醫逆襲的秘密武器!

結論

少陽經與其他經脈的聯繫最多,古人稱“少陽為樞”,很多病症只需『和解少陽』便可四兩撥千斤,達到早治療早輕鬆的效果。

與虛火關係緊密的是陽明,即胃經,這個在臨床上也有很多驗證效果,瀉胃火可以治療包括牙齦腫痛、便秘、口腔潰瘍等各種現代上火症狀。

與腎虛關係緊密的分別是少陰(心腎)經和太陰(脾肺)經,腎很好理解,脾肺在這裡出現則發人深思,所謂土生金、金生水,造化之妙。

厥陰與痙病(四肢抽搐、角弓反張)密切相關,這個有經驗的老中醫一看就洞悉於心:肝木主風,痙病這些症狀正與風症吻合。

有興趣的朋友,還可以拓爾思之,比如查一下與『人參』關係緊密的老鐵是那幾位?答案不揭曉了,有心者自得知。

現代科技也可以讓古老的典籍重新煥發青春!


分享到:


相關文章: