『姐是老中醫,專治吹牛逼』——著名歌唱家花粥
前言
中國古籍,汗牛充棟,源遠流長,即使皓首窮經,人一生能博覽的書籍也是少之又少,能深入參悟的就更是稀有。
好在現在是AI時代,通過機器學習可以快速大量處理包括文本在內的各種數字文檔,藉助AI,我們也可以提高對於知識處理和提煉的效率。
本文將以橫跨明清兩代的醫學家陳士鐸的畢生心血《醫學全書》為例,用AI研習經典,用人工創作智慧。
勵志照亮人生,程序猿改變世界。
背景介紹
陳士鐸,字敬之,號遠公,別號朱華子,又號蓮公,自號大雅堂主人,浙江山陰(今浙江紹興)人。約生於明朝天啟年間,卒於清朝康熙年間。據嘉慶八年《山陰縣誌》記載:“陳士鐸,邑諸生,治病多奇中,醫藥不受人謝,年八十餘卒。“
書籍介紹
陳士鐸是清代初期的著名醫學家,一生的著述非常多。
《醫學全書》總共3.7M,漢字約120萬字,全部文言文。一個勤奮的讀者,每天閱讀2000字,需要600多天完成第一輪學習。
至於歸納整理,就需要更久的時間。所以說,學醫需謹慎。
框架選型
中文處理文本,第一步分詞,第二步向量化。
1、分詞
分詞我選用了開源項目結巴分詞:https://github.com/fxsjy/jieba
自從github嫁給ms,總感覺心裡很失落,懷念啊我們的青春啊。
同時,考慮到結巴分詞對文言文醫學的不熟悉,需要手動設置用戶自定義詞,示例如下:
2、向量化
因為這次的主要目的是尋找詞語關係,所以選擇了word2vec作為工具庫。
word2vec也叫word embeddings,中文名“詞向量”,作用就是將自然語言中的字詞轉為計算機可以理解的稠密向量(Dense Vector)。
word2vec模型其實就是簡單化的神經網絡。
word2vec不僅可以在百萬數量級的詞典和上億的數據集上進行高效地訓練,還可以得到訓練結果——詞向量(word embedding),可以很好地度量詞與詞之間的相似性。
word2vec常見應用:
用 Word2vec 尋找相似詞
根據上下文預測某個詞語出現概率
數據處理
良好的數據是機器學習模型的食材。
經過結巴分詞之後的segment還需要手工過濾掉標點符號和很多奇怪的詞語,這些詞語如果不去掉,在後面的向量相似度上會帶來很多困擾。
訓練模型
訓練模型輸出相似度
這裡以六經為例,目的是看看與這幾條經脈最親密的是哪些東西。
老中醫順手普及:
少陰:分足少陰腎經和手少陰心經,對應心、腎。
太陰:分足太陰脾經和手太陰肺經,對應脾、肺。
厥陰:分足厥陰肝經和手厥陰心包經,對應肝、心包。
少陽:分足少陽膽經和手少陽三焦經,對應膽、三焦。
太陽:分足太陽膀胱經和手太陽小腸經,對應膀胱、小腸。
陽明:分足陽明胃經和手陽明大腸經,對應胃、大腸。
以上對應的五臟(心肝腎肺脾)和六腑(膽,心包,膀胱,小腸,大腸,三焦)並非西醫意義上的器官。
數據樣本
以上美觀大方的數據表格由DataHunter數據可視化軟件生成。
可視化
為了直觀和顏值,我們採用DataHunter最新的1.8版數據可視化軟件來呈現數據。
新版新增了包括熱力圖、箱線圖、關係圖、樹狀圖、玫瑰圖、桑基圖、儀表盤、象形圖,正好可以用來展示多維度量的數據。
結論
少陽經與其他經脈的聯繫最多,古人稱“少陽為樞”,很多病症只需『和解少陽』便可四兩撥千斤,達到早治療早輕鬆的效果。
與虛火關係緊密的是陽明,即胃經,這個在臨床上也有很多驗證效果,瀉胃火可以治療包括牙齦腫痛、便秘、口腔潰瘍等各種現代上火症狀。
與腎虛關係緊密的分別是少陰(心腎)經和太陰(脾肺)經,腎很好理解,脾肺在這裡出現則發人深思,所謂土生金、金生水,造化之妙。
厥陰與痙病(四肢抽搐、角弓反張)密切相關,這個有經驗的老中醫一看就洞悉於心:肝木主風,痙病這些症狀正與風症吻合。
有興趣的朋友,還可以拓爾思之,比如查一下與『人參』關係緊密的老鐵是那幾位?答案不揭曉了,有心者自得知。
現代科技也可以讓古老的典籍重新煥發青春!
閱讀更多 DataHunter 的文章