如何使用 Keras 實現無監督聚類

如何使用 Keras 實現無監督聚類

由於深度學習算法在表達非線性表徵上的卓越能力,它非常適合完成輸入到有標籤的數據集輸出的映射。這種任務叫做分類。它需要有人對數據進行標註。無論是對 X 光圖像還是對新聞報道的主題進行標註,在數據集增大的時候,依靠人類進行干預的做法都是費時費力的。

聚類分析,或者稱作聚類是一種無監督的機器學習技術。它不需要有標籤的數據集。它可以根據數據成員的相似性對它們進行分組。

你為什麼需要關注它呢?讓我來講講幾個理由。

如何使用 Keras 實現無監督聚類

聚類的應用

推薦系統,通過學習用戶的購買歷史,聚類模型可以根據相似性對用戶進行區分。它可以幫助你找到志趣相投的用戶,以及相關商品。

在生物學上,序列聚類算法試圖將相關的生物序列進行分組。它根據氨基酸含量對蛋白進行聚類。

圖像和視頻聚類分析根據相似性對它們進行分組。

在醫療數據庫中,對每個病人來說,真正有價值的測試(比如葡萄糖,膽固醇)都是不同的。首先對病人進行聚類分析可以幫助我們對真正有價值的特徵進行分類,從而減少特徵分散。它可以增加分類任務的準確性,比如在癌症病人生存預測上。

在一般用途上,它可以生成一個數據的彙總信息用於分類,模式發現,假設生成,以及測試。

無論如何,對於數據科學家來說,聚類都是非常有價值的工具。

如何才是好的聚類

一個好的聚類方法應該生成高質量的分類,它有如下特點:

群組內部的高相似性:群組內的緊密聚合

群組之間的低相似性:群組之間各不相同

為 K-Means 算法設置一個基線

傳統的 K-Means 算法速度快,並且可以廣泛應用於解決各種問題。但是,它的距離度量受限於原始的數據空間。因此在輸入數據維度較高時,它的效率就會降低,比如說圖像集。


分享到:


相關文章: