機器學習——詳解經典聚類算法Kmeans

2020-03-18 14:18:00 承志的算法課堂

今天是機器學習專題的第12篇文章，我們一起來看下Kmeans聚類算法。

在上一篇文章當中我們討論了KNN算法，KNN算法非常形象，通過距離公式找到最近的K個鄰居，通過鄰居的結果來推測當前的結果。今天我們要來看的算法同樣非常直觀，也是最經典的聚類算法之一，它就是Kmeans。

我們都知道，在英文當中Means是平均的意思，所以也有將它翻譯成K-均值算法的。當然，含義是一樣的，都是通過求均值的方式來獲取樣本的類簇。

既然知道Kmeans算法和均值和類簇有關，那麼剩下的問題就只有兩個：首先，我們應該怎麼來計算均值，其次當我們獲取了均值之後，又是怎麼來聚類的呢？

聚類算法

上面的兩個問題我們先放一放，我們先來看一個例子，假設我們有一系列用戶的收入樣本，我們想要將這批用戶根據他們的收入、居住地以及消費情況分成富人階級、中產階級和工薪階級。

在這個問題當中，我們只知道我們希望把樣本分成三類，但是怎麼來分，我們並不清楚，這是我們希望模型替我們完成的。也就是說我們希望模型能夠自動識別這些樣本之間的關聯性，把關聯性強的樣本聚在一起，成為一個類簇。在這個問題當中，我們希望模型替我們把數據分成三個類別。

如果讓我們人工來劃分這個問題當然很簡單，我們直接根據這些用戶的收入來分。直接將用戶的收入畫一個折線圖，然後來尋找最佳的兩個切分點，三下五除二很快就搞定了。但如果我們的特徵當中沒有用戶的收入呢？如果我們能知道用戶有沒有車，有沒有房，家裡的存款和所有外債，這就沒那麼直觀了，不過也容易，我們簡單地建模也容易解決。再如果我們連車房的信息都沒有，只能拿到用戶在哪裡上班，用戶住在哪裡呢？這個問題是不是就更抽象了？

在特徵比較抽象和隱晦的時候，我們想直接劃分往往不太容易，由於不知道真實的標籤，我們也沒有辦法用上監督模型。為了解決問題，Kmeans只能反其道而行之，我們不再對數據進行劃分了，而讓比較接近的數據自己聚集在一起。Kmeans算法正是基於這一思想而生，讓數據通過某種算法聚集，不再進行劃分的方法稱為聚類算法。

在聚類問題當中，一系列樣本被模型根據數據的屬性聚合在了一起，成為了同一個類別。這裡的類別就稱為這些樣本的類簇(cluster)。每一個簇的中心點稱為簇中心。所以，KMeans算法，顧名思義，就是將樣本根據用戶設置的K值，一共聚類成K個類簇。

Kmeans原理

不知道大家有沒有聽說過這麼一個理論，

人類和計算機其實是相反的。一些對於人類來說困難的問題，對於計算機非常簡單。比如記憶，人類很難瞬間記憶大量的東西，而計算機不是，只要帶寬和容量足夠，再多的數據都能記住。不但能記住，而且絕不會出錯。再比如計算，人類很難快速計算複雜的公式，基本上兩位數以上的乘除就必須要藉助工具了。但計算機不是，只要CPU資源足夠，再大量的計算都可以進行。

但是呢，人類覺得很簡單的東西，對計算機來說非常困難。比如視覺，我們人類可以很輕易地分辨圖片上的貓和狗，但是計算機不行。即使是深度學習和AI大行其道的今天，我們也要專門設計複雜的模型和大量數據進行訓練才能讓計算機學會分辨圖片的內容。再比如創作，人類可以創作出前人沒有的東西，計算機則不能，所謂的計算機譜曲、寫作只不過是程序按照固定的模式加上一些隨機波動的值綜合作用的結果而已。再比如思考，人類可以思考之前從未見過的問題，計算機顯然不能。

比如上圖，我們人類一眼看去這是三個類別，但是計算機不行。數據在計算機當中是離散的，計算機也沒有視覺，看不到數據之間的聯繫。所以我們看著簡單的問題，其實並沒有那麼簡單，但其實剛才的分析當中我們已經道出了本質：既然計算機看不到聯繫，那麼我們就要想辦法讓它能夠“看到”，說看到應該不夠準確，準確地說是算到。

回想一下，我們剛才是怎麼快速分辨出圖上有三個類別的？你會說很簡單嘛，因為三個區域內點最多啊。這個說法很正確，但是不夠量化，如果我們量化一下，應該是存在三個區域密度最大。一旦量化表達以後，問題就清楚了，我們正是要通過密度來進行聚類。Kmeans正是基於這一樸素的思想，但是它過於樸素，並沒有設計計算類簇數量的算法，所以這個類別數量K，是要用戶提供的。

也就是說算法並不知道要聚成幾類

，我們說是幾類就是幾類。

我們忽略這一細節，假設我們通過某種奇怪的方法知道了數據一共分成三類，那麼Kmeans怎麼進行劃分呢？

我們深入思考會發現我們雖然說是要量化密度，但是密度很難量化。因為密度的定義本身就是基於聚類之後的結果的，我們肯定是已經知道了這樣一批數據聚集在了一起才能算它們的密度，而不是相反。所以這個思路是靠譜的，但是直接這麼做是不行的。但是直接做不行，不意味著倒著不可以，這個思路在數學上很常見，在這裡我們又遇到了。

既然我們通過密度來聚類不行，那麼我們能不能先聚類再算密度，根據密度的結果調整呢？

我Google了好久也沒找到Kmeans原作者的信息，但我想能想出這麼天才想法的人，他一定很機智。Kmeans正是基於這麼樸素又機智的思路衍生的。

初始化

在算法運行的伊始，Kmeans會在數據集的範圍當中隨機選擇K箇中心點，然後依據這K箇中心點進行聚類。中心點有了聚類其實很容易，對於每一個樣本來說我們只需要計算一下它和所有中心的距離，選擇最近的那個就好了。

當然，這樣得到的結果肯定很不準，但是沒關係，即使依據不靠譜的中心，我們也可以完成聚類，我們把隨機到的中心點的位置和最後的聚類結果都畫在一張圖上，可以看到雖然一開始選的位置看起來不是那麼靠譜，但是我們一樣可以達成一個不錯的結果。

初始的聚類結果肯定是不準的，但是沒有關係，我們不怕不準，就怕沒有結果。有了結果就好辦了，我們可以針對這個結果進行分析來查看優化的方向。有了優化的方向就可以讓結果變得越來越準，就好像在線性迴歸當中，我們也不是第一下就搞定最佳參數的選值的，也是通過梯度下降一點一點迭代出來的。

迭代

在我們介紹具體的迭代方法之前，先來分析下情況。顯然由於隨機選取的關係，聚類的結果肯定是不準的，不準的原因是由於我們隨機選取的中心和類簇距離太遠導致的。也就是說我們要想辦法讓中心向著類簇靠近。

那怎麼才能靠近呢，我們先來看一下完美聚類之後的情況。

我們來觀察一下，完美聚類時中心點和類簇重疊。那麼這個中心點有什麼性質呢？如果對物理熟悉的話，應該能聯想到，這個中心點應該是這個類樣本的質心。即使不熟悉這個概念也沒關係，我們通過上圖可以觀察出來，樣本點均勻地分散在中心的四周。均勻地分散會有一個什麼特點？也容易想到，就是出現在中心點左側和右側，上側和下側，以及其他各個方向上的點數量和分佈都差不多。我們量化一下這個概念，可以得到類別當中所有點的座標均值就是中心點的位置。

那麼問題來了，在一個聚類錯誤的情況下，樣本座標的均值（即質心）和我們選取的中心點會重合嗎？如果不重合會有怎樣的偏差呢？

我們從上圖其實可以猜出來，由於我們選的中心點位置不對，所以它和聚類之後樣本的質心肯定是不重合的。

兩者偏差的方向，就是它距離質心的方向。

這個結論也很樸素，因為距離真實的類簇越近，點越密集，那麼算出來的質心顯然會更靠近真實類簇的方向。有了這個結論，就很簡單了，我們只要每次聚類之後計算一下各個類的質心，然後將算出來的質心作為下一次聚類的中心點重新聚類，一直重複上面的過程就行了。當聚類之前的中心和聚類之後的質心重疊的時候，就說明聚類收斂，我們找到了類簇。

下圖展現了一個類別中心隨著迭代而變化的情況，我們可以很直觀地看到，隨著我們的迭代，我們的類中心距離真正的簇中心越來越近，經過了三次迭代，就已經非常接近最後的結果了。所以這個結論是正確的，用質心來作為新的中心來迭代的思路是可行的。

代碼實現

Kmeans的原理以及牽引侯貴搞清楚了之後，用Python實現就變得很簡單了。

我們當然可以自己編寫生成數據的邏輯，但sklearn庫當中為我們提供了創造數據的API，通過調用API我們可以很輕鬆地創造我們想要的數據。我們可以使用dataset.make_blobs創造聚類數據。傳入樣本的數量和特徵的數量，真實類簇的座標以及樣本的標準差，就可以得到一批相應的樣本。

創建完數據之後，下面我們就可以開始算法的實現了。

首先，我們先開發整個算法的基礎方法，來簡化後續的開發。在KMeans問題當中，我們已經知道我們是通過向量和各類簇中心在樣本空間的距離來調整樣本的所屬類別。所以，我們先開發向量之間距離的計算方法。

使用numpy，整個的計算過程會變得非常簡單：

在這一行代碼當中，我們先計算了兩個向量的差向量。然後我們對這個差向量的每一項求平方和再開方，這樣就得到了向量A和B的歐氏距離。

接著，我們需要隨機K個類簇的中心點的座標。雖然在KMeans算法當中類簇的選擇是隨機的，但是需要注意的是，我們的隨機的範圍並不是無限的。因為聚類是為了尋找樣本密集度最高的K個位置，沒有樣本分佈的地方自然也是不可能找到合法的類簇的。所以我們可以將隨機的範圍限制在樣本的分佈範圍內，這樣可以大大簡化計算量。

上面的邏輯不難理解，我們首先為K個簇中心創建座標矩陣並初始化為0，這裡的n是樣本的維度數。接著，我們遍歷這n個維度，查找樣本當中每個維度的最大值和最小值。有了這兩個值，我們就知道了簇中心在每個樣本維度上的取值範圍。最後，我們再調用random.rand方法隨機出具體的座標即可。

到這裡，算法需要的兩個基本工具都已經開發完了。接下來只要實現迭代的流程，整個KMeans就算是完成了。

在我們繼續往下開發之前，我們先來測試一下我們開發好的這兩個接口。

首先，我們先生成數據：

看到有數據產出，說明我們的數據已經生成好了，接下來根據生成的數據，隨機選出K個簇中心。

我們在生成數據的時候傳入的樣本中心點有三個，所以簇中心數量就是3，也就是說我們的K就是3，那麼我們接著調用randomCenter方法，查看結果。

果然，我們生成了3個點。為了保險，我們需要輸出樣本的範圍，檢查我們生成的點的座標是否在我們樣本的範圍當中。

使用numpy的max和min方法，結合Python語言的切片操作，我們可以非常方便地求解這四個值。很明顯，我們的簇中心都在範圍當中。我們的代碼沒有問題。

這兩個方法沒問題之後，我們就可以著手開發KMeans的核心邏輯了，也就是聚類的計算邏輯。

根據我們之前列出來的偽代碼，我們先隨機出簇中心。然後根據簇中心給各個樣本標記上類別。最後再根據標記好的樣本更新簇中心的位置，整個邏輯其實非常簡單，寫成代碼也不復雜：

下面，我們來測試一下我們的代碼，看看能不能聚類出正確的結果。

我們把樣本當中的所有點根據聚類之後的結果進行繪製，再在同一張圖上標記出簇中心的位置，得到的結果如下。

不難看出，在上圖當中，無論是簇中心的位置還是最後的聚類結果，基本上和我們人工估計的結果一樣。說明我們寫的KMeans算法成功運行，並輸出了正確的結果。

總結

到這裡，關於Kmeans算法的原理和代碼就都介紹完了。不知道大家有什麼感覺，我當時初學這個算法的時候，最大的感受就是簡單，這個算法也太“兒戲”了，理解起來也很容易，沒有什麼彎彎繞或者是複雜的東西，所有問題和思路都直來直去。

算法簡單我們學習起來就容易，但是往往太簡單的算法都會留下短板。Kmeans的短板也很明顯，相信大家也都感受到了。我們每次迭代的時候，都需要對所有的樣本計算所屬的類別，這可是一次全量的計算。而由於我們初始的中心點是隨機選取的，這也導致了一開始中心的位置和最後的類簇可能相去甚遠，距離越遠顯然需要的迭代次數也就越多，那麼帶來的計算消耗自然也就越大。

那麼，針對kmeans效率的問題有沒有什麼提升的方法呢？

大家可以先思考一下這個問題，我將會在下週的機器學習專題當中和大家討論相關內容。

同樣，由於Kmeans算法原理簡單，實現容易，所以它經常出現在各大公司的招聘筆試題當中。據我所知，阿里巴巴有好幾年的筆試題就是讓選手手寫一個kmeans聚類。所以雖然這個算法簡單，但是我們也不能掉以輕心。另外，對於算法也不能滿足於瞭解原理，凡事可以多想一想多問一問，這樣理解才更加深入，以後應對面試才更加靈活。

今天的文章就是這些，如果覺得有所收穫，請順手點個關注或者轉發吧，你們的舉手之勞對我來說很重要。

分享到:

閱讀更多 承志的算法課堂 的文章

關鍵字: 美好，一直在身邊更加設計

機器學習——Linear Regression 線性迴歸

機器學習：降維技術完整指南

機器學習——詳解KD-Tree來龍去脈

機器學習-數據降維

機器學習—CER字錯率計算

機器學習：潛在語義分析

機器學習——詳解經典聚類算法Kmeans

機器學習：主成分分析

機器學習 KNN 算法之手寫數字識別

機器學習：隱馬爾可夫模型（HMM）

機器學習：支持向量機

機器學習：初始點對優化的影響

03.06 機器學習：初始點對優化的影響

機器學習-SVM實例

03.04 機器學習—主成分分析（PCA）實戰演練

機器學習、深度學習入門教材課程

機器學習：概述

03.01 機器學習：概述

機器學習-聚類分析代碼解析

機器學習：如何在Kafka應用程序中部署一個分析模型進行實時預測

機器學習-淺談神經網絡和Keras的應用

12.13 機器學習：AutoGluon介紹及示例

機器學習——正則化

機器學習&深度學習基礎（tensorflow版本實現的算法概述0）

機器學習-Faster RCNN中的RPN網絡

機器學習-目標檢測(Object Detection)的評估指標mAP

機器學習-Faster RCNN的損失函數(Loss Function)

機器學習：感知機學習算法

機器學習-邏輯迴歸

機器學習-廣義線性模型

機器學習 — 最大似然估計的應用

機器學習：什麼是預測模型性能評估

機器學習：處理不平衡數據的5個重要技術

AI 機器學習、深度學習模型調優方法及方向

npj：機器學習—神經網絡方法計算多組分晶體的形成能

機器學習：Logistic迴歸背後的數學

機器學習：帶你瞭解決策樹

機器學習：梯度下降和正規方程

機器學習：Word嵌入和Word2Vec簡介

機器學習：使用TensorFlow構建LSTM模型詳細教程

機器學習：葡萄酒質量預測模型教程

「機器學習」權重初始化的幾個方法

前輩說先學會了這些Python知識點，再談學習人工智慧、機器學習

機器學習：TensorFlow中的L1正則化

機器學習：使用時間序列預測的Bitcoin Price預測模型

機器學習：如何計算CNN中的參數數量？

機器學習-模型的評估和選擇

05.15 機器學習-我媽媽也能看懂的入門篇

數據科學家基礎能力——機器學習

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"

機器學習——詳解經典聚類算法Kmeans

聚類算法

Kmeans原理

初始化

迭代

代碼實現

總結

相關文章:

機器學習——Linear Regression 線性迴歸

機器學習：降維技術完整指南

機器學習——詳解KD-Tree來龍去脈

機器學習-數據降維

機器學習—CER字錯率計算

機器學習：潛在語義分析

機器學習——詳解經典聚類算法Kmeans

機器學習：主成分分析

機器學習 KNN 算法之手寫數字識別

機器學習：隱馬爾可夫模型（HMM）

機器學習：支持向量機

機器學習：初始點對優化的影響

03.06 機器學習：初始點對優化的影響

機器學習-SVM實例

03.04 機器學習—主成分分析（PCA）實戰演練

機器學習、深度學習入門教材課程

機器學習：概述

03.01 機器學習：概述

機器學習-聚類分析代碼解析

機器學習：如何在Kafka應用程序中部署一個分析模型進行實時預測

機器學習-淺談神經網絡和Keras的應用

12.13 機器學習：AutoGluon介紹及示例

機器學習——正則化

機器學習&深度學習基礎（tensorflow版本實現的算法概述0）

機器學習-Faster RCNN中的RPN網絡

機器學習-目標檢測(Object Detection)的評估指標mAP

機器學習-Faster RCNN的損失函數(Loss Function)

機器學習：感知機學習算法

機器學習-邏輯迴歸

機器學習-廣義線性模型

機器學習 — 最大似然估計的應用

機器學習：什麼是預測模型性能評估

機器學習：處理不平衡數據的5個重要技術

AI 機器學習、深度學習模型調優方法及方向

npj：機器學習—神經網絡方法計算多組分晶體的形成能

機器學習：Logistic迴歸背後的數學

機器學習：帶你瞭解決策樹

機器學習：梯度下降和正規方程

機器學習：Word嵌入和Word2Vec簡介

機器學習：使用TensorFlow構建LSTM模型詳細教程

機器學習：葡萄酒質量預測模型教程

「機器學習」權重初始化的幾個方法

前輩說先學會了這些Python知識點，再談學習人工智慧、機器學習

機器學習：TensorFlow中的L1正則化

機器學習：使用時間序列預測的Bitcoin Price預測模型

機器學習：如何計算CNN中的參數數量？

機器學習-模型的評估和選擇

05.15 機器學習-我媽媽也能看懂的入門篇

數據科學家基礎能力——機器學習

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪