大數據機器學習的方法

2018-03-09 15:00:52 我的瀋陽

1迴歸算法

　　在大部分機器學習課程中，迴歸算法都是介紹的第一個算法。原因有兩個：一.迴歸算法比較簡單，介紹它可以讓人平滑地從統計學遷移到機器學習中。二.迴歸算法是後面若干強大算法的基石，如果不理解迴歸算法，無法學習那些強大的算法。迴歸算法有兩個重要的子類：即線性迴歸和邏輯迴歸。

　　線性迴歸就是如何擬合出一條直線最佳匹配我所有的數據。

　　計算機科學界專門有一個學科叫“數值計算”，專門用來提升計算機進行各類計算時的準確性和效率問題。例如，著名的“梯度下降”以及“牛頓法”就是數值計算中的經典算法，也非常適合來處理求解函數極值的問題。梯度下降法是解決迴歸模型中最簡單且有效的方法之一。從嚴格意義上來說，由於後文中的神經網絡和推薦算法中都有線性迴歸的因子，因此梯度下降法在後面的算法實現中也有應用。

　　邏輯迴歸是一種與線性迴歸非常類似的算法，但是，從本質上講，線型迴歸處理的問題類型與邏輯迴歸不一致。

線性迴歸處理的是數值問題，也就是最後預測出的結果是數字，例如房價。而邏輯迴歸屬於分類算法，也就是說，邏輯迴歸預測結果是離散的分類，例如判斷這封郵件是否是垃圾郵件，以及用戶是否會點擊此廣告等等。

邏輯迴歸是畫出了一條分類線，見下圖。

邏輯迴歸的直觀解釋

假設我們有一組腫瘤患者的數據，這些患者的腫瘤中有些是良性的(圖中的藍色點)，有些是惡性的(圖中的紅色點)。這裡腫瘤的紅藍色可以被稱作數據的“標籤”。同時每個數據包括兩個“特徵”：患者的年齡與腫瘤的大小。我們將這兩個特徵與標籤映射到這個二維空間上，形成了我上圖的數據。

當我有一個綠色的點時，我該判斷這個腫瘤是惡性的還是良性的呢？根據紅藍點我們訓練出了一個邏輯迴歸模型，也就是圖中的分類線。這時，根據綠點出現在分類線的左側，因此我們判斷它的標籤應該是紅色，也就是說屬於惡性腫瘤。

邏輯迴歸算法劃出的分類線基本都是線性的(也有劃出非線性分類線的邏輯迴歸，不過那樣的模型在處理數據量較大的時候效率會很低)，這意味著當兩類之間的界線不是線性時，邏輯迴歸的表達能力就不足。

2神經網絡

神經網絡(也稱之為人工神經網絡，ANN)算法是80年代機器學習界非常流行的算法，不過在90年代中途衰落。

現在，攜著“深度學習”之勢，神經網絡重裝歸來，重新成為最強大的機器學習算法之一。

神經網絡的誕生起源於對大腦工作機理的研究。早期生物界學者們使用神經網絡來模擬大腦。機器學習的學者們使用神經網絡進行機器學習的實驗，發現在視覺與語音的識別上效果都相當好。在BP算法(加速神經網絡訓練過程的數值算法)誕生以後，神經網絡的發展進入了一個熱潮。

比方說，一個正方形，分解為四個折線進入視覺處理的下一層中。四個神經元分別處理一個折線。每個折線再繼續被分解為兩條直線，每條直線再被分解為黑白兩個面。於是，一個複雜的圖像變成了大量的細節進入神經元，神經元處理以後再進行整合，最後得出了看到的是正方形的結論。這就是大腦視覺識別的機理，也是神經網絡工作的機理。

讓我們看一個簡單的神經網絡的邏輯架構。在這個網絡中，分成輸入層，隱藏層，和輸出層。輸入層負責接收信號，隱藏層負責對數據的分解與處理，最後的結果被整合到輸出層。每層中的一個圓代表一個處理單元，可以認為是模擬了一個神經元，若干個處理單元組成了一個層，若干個層再組成了一個網絡，也就是"神經網絡"。

大數據機器學習的方法

神經網絡的邏輯架構

進入90年代，神經網絡的發展進入了一個瓶頸期。其主要原因是儘管有BP算法的加速，神經網絡的訓練過程仍然很困難。因此90年代後期支持向量機(SVM)算法取代了神經網絡的地位。

3SVM（支持向量機）

支持向量機算法是誕生於統計學習界，同時在機器學習界大放光彩的經典算法。

支持向量機算法從某種意義上來說是邏輯迴歸算法的強化：通過給予邏輯迴歸算法更嚴格的優化條件，支持向量機算法可以獲得比邏輯迴歸更好的分類界線。但是如果沒有某類函數技術，則支持向量機算法最多算是一種更好的線性分類技術。

但是，通過跟高斯“核”的結合，支持向量機可以表達出非常複雜的分類界線，從而達成很好的的分類效果。“核”事實上就是一種特殊的函數，最典型的特徵就是可以將低維的空間映射到高維的空間。

例如下圖所示：

大數據機器學習的方法

支持向量機圖例

我們如何在二維平面劃分出一個圓形的分類界線？在二維平面可能會很困難，但是通過“核”可以將二維空間映射到三維空間，然後使用一個線性平面就可以達成類似效果。也就是說，二維平面劃分出的非線性分類界線可以等價於三維平面的線性分類界線。於是，我們可以通過在三維空間中進行簡單的線性劃分就可以達到在二維平面中的非線性劃分效果。

大數據機器學習的方法

三維空間的切割

支持向量機是一種數學成分很濃的機器學習算法（相對的，神經網絡則有生物科學成分）。在算法的核心步驟中，有一步證明，即將數據從低維映射到高維不會帶來最後計算複雜性的提升。於是，通過支持向量機算法，既可以保持計算效率，又可以獲得非常好的分類效果。因此支持向量機在90年代後期一直佔據著機器學習中最核心的地位，基本取代了神經網絡算法。直到現在神經網絡藉著深度學習重新興起，兩者之間才又發生了微妙的平衡轉變。

4聚類算法

前面的算法中的一個顯著特徵就是我的訓練數據中包含了標籤，訓練出的模型可以對其他未知數據預測標籤。在下面的算法中，訓練數據都是不含標籤的，而算法的目的則是通過訓練，推測出這些數據的標籤。這類算法有一個統稱，即無監督算法(前面有標籤的數據的算法則是有監督算法)。無監督算法中最典型的代表就是聚類算法。

讓我們還是拿一個二維的數據來說，某一個數據包含兩個特徵。我希望通過聚類算法，給他們中不同的種類打上標籤，我該怎麼做呢？簡單來說，聚類算法就是計算種群中的距離，根據距離的遠近將數據劃分為多個族群。

聚類算法中最典型的代表就是K-Means算法。

5降維算法

降維算法也是一種無監督學習算法，其主要特徵是將數據從高維降低到低維層次。在這裡，維度其實表示的是數據的特徵量的大小，例如，房價包含房子的長、寬、面積與房間數量四個特徵，也就是維度為4維的數據。可以看出來，長與寬事實上與面積表示的信息重疊了，例如面積=長 × 寬。通過降維算法我們就可以去除冗餘信息，將特徵減少為面積與房間數量兩個特徵，即從4維的數據壓縮到2維。於是我們將數據從高維降低到低維，不僅利於表示，同時在計算上也能帶來加速。

剛才說的降維過程中減少的維度屬於肉眼可視的層次，同時壓縮也不會帶來信息的損失(因為信息冗餘了)。如果肉眼不可視，或者沒有冗餘的特徵，降維算法也能工作，不過這樣會帶來一些信息的損失。但是，降維算法可以從數學上證明，從高維壓縮到的低維中最大程度地保留了數據的信息。因此，使用降維算法仍然有很多的好處。

降維算法的主要作用是壓縮數據與提升機器學習其他算法的效率

。通過降維算法，可以將具有幾千個特徵的數據壓縮至若干個特徵。另外，降維算法的另一個好處是數據的可視化，例如將5維的數據壓縮至2維，然後可以用二維平面來可視。降維算法的主要代表是PCA算法(即主成分分析算法)。

6推薦算法

推薦算法是目前業界非常火的一種算法，在電商界，如亞馬遜，天貓，京東等得到了廣泛的運用。推薦算法的主要特徵就是可以自動向用戶推薦他們最感興趣的東西，從而增加購買率，提升效益。推薦算法有兩個主要的類別：

一類是基於物品內容的推薦，是將與用戶購買的內容近似的物品推薦給用戶，這樣的前提是每個物品都得有若干個標籤，因此才可以找出與用戶購買物品類似的物品，這樣推薦的好處是關聯程度較大，但是由於每個物品都需要貼標籤，因此工作量較大。

另一類是基於用戶相似度的推薦，則是將與目標用戶興趣相同的其他用戶購買的東西推薦給目標用戶，例如小A歷史上買了物品B和C，經過算法分析，發現另一個與小A近似的用戶小D購買了物品E，於是將物品E推薦給小A。

兩類推薦都有各自的優缺點，在一般的電商應用中，一般是兩類混合使用。推薦算法中最有名的算法就是協同過濾算法。

7其他

除了以上算法之外，機器學習界還有其他的如高斯判別，樸素貝葉斯，決策樹等等算法。但是上面列的六個算法是使用最多，影響最廣，種類最全的典型。機器學習界的一個特色就是算法眾多，發展百花齊放。

下面做一個總結，按照訓練的數據有無標籤，可以將上面算法分為監督學習算法和無監督學習算法，但推薦算法較為特殊，既不屬於監督學習，也不屬於非監督學習，是單獨的一類。

監督學習算法：

　　線性迴歸，邏輯迴歸，神經網絡，SVM

無監督學習算法：

聚類算法，降維算法

特殊算法：

推薦算法

除了這些算法以外，有一些算法的名字在機器學習領域中也經常出現。但他們本身並不算是一個機器學習算法，而是為了解決某個子問題而誕生的。你可以理解他們為以上算法的子算法，用於大幅度提高訓練過程。其中的代表有：梯度下降法，主要運用在線型迴歸，邏輯迴歸，神經網絡，推薦算法中；牛頓法，主要運用在線型迴歸中；BP算法，主要運用在神經網絡中；SMO算法，主要運用在SVM中。

大數據機器學習的方法

分享到:

閱讀更多 我的瀋陽 的文章

關鍵字: 數學腫瘤迴歸

機器學習——Linear Regression 線性迴歸

機器學習：降維技術完整指南

機器學習——詳解KD-Tree來龍去脈

機器學習-數據降維

機器學習—CER字錯率計算

機器學習——詳解經典聚類算法Kmeans

機器學習：潛在語義分析

機器學習：主成分分析

機器學習 KNN 算法之手寫數字識別

機器學習：隱馬爾可夫模型（HMM）

機器學習：支持向量機

機器學習：初始點對優化的影響

03.06 機器學習：初始點對優化的影響

機器學習-SVM實例

03.04 機器學習—主成分分析（PCA）實戰演練

機器學習、深度學習入門教材課程

機器學習：概述

03.01 機器學習：概述

機器學習-聚類分析代碼解析

機器學習：如何在Kafka應用程序中部署一個分析模型進行實時預測

機器學習-淺談神經網絡和Keras的應用

12.13 機器學習：AutoGluon介紹及示例

機器學習——正則化

機器學習&深度學習基礎（tensorflow版本實現的算法概述0）

機器學習-Faster RCNN中的RPN網絡

機器學習-目標檢測(Object Detection)的評估指標mAP

機器學習-Faster RCNN的損失函數(Loss Function)

機器學習：感知機學習算法

機器學習-邏輯迴歸

機器學習-廣義線性模型

機器學習 — 最大似然估計的應用

機器學習：什麼是預測模型性能評估

機器學習：處理不平衡數據的5個重要技術

AI 機器學習、深度學習模型調優方法及方向

機器學習：Logistic迴歸背後的數學

機器學習：帶你瞭解決策樹

機器學習：梯度下降和正規方程

機器學習：Word嵌入和Word2Vec簡介

機器學習：使用TensorFlow構建LSTM模型詳細教程

機器學習：葡萄酒質量預測模型教程

「機器學習」權重初始化的幾個方法

前輩說先學會了這些Python知識點，再談學習人工智慧、機器學習

機器學習：TensorFlow中的L1正則化

機器學習：使用時間序列預測的Bitcoin Price預測模型

機器學習：如何計算CNN中的參數數量？

機器學習-模型的評估和選擇

05.15 機器學習-我媽媽也能看懂的入門篇

數據科學家基礎能力——機器學習

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"

大數據機器學習的方法

1迴歸算法

2神經網絡

3SVM（支持向量機）

4聚類算法

5降維算法

6推薦算法

7其他

相關文章:

機器學習——Linear Regression 線性迴歸

機器學習：降維技術完整指南

機器學習——詳解KD-Tree來龍去脈

機器學習-數據降維

機器學習—CER字錯率計算

機器學習——詳解經典聚類算法Kmeans

機器學習：潛在語義分析

機器學習：主成分分析

機器學習 KNN 算法之手寫數字識別

機器學習：隱馬爾可夫模型（HMM）

機器學習：支持向量機

機器學習：初始點對優化的影響

03.06 機器學習：初始點對優化的影響

機器學習-SVM實例

03.04 機器學習—主成分分析（PCA）實戰演練

機器學習、深度學習入門教材課程

機器學習：概述

03.01 機器學習：概述

機器學習-聚類分析代碼解析

機器學習：如何在Kafka應用程序中部署一個分析模型進行實時預測

機器學習-淺談神經網絡和Keras的應用

12.13 機器學習：AutoGluon介紹及示例

機器學習——正則化

機器學習&深度學習基礎（tensorflow版本實現的算法概述0）

機器學習-Faster RCNN中的RPN網絡

機器學習-目標檢測(Object Detection)的評估指標mAP

機器學習-Faster RCNN的損失函數(Loss Function)

機器學習：感知機學習算法

機器學習-邏輯迴歸

機器學習-廣義線性模型

機器學習 — 最大似然估計的應用

機器學習：什麼是預測模型性能評估

機器學習：處理不平衡數據的5個重要技術

AI 機器學習、深度學習模型調優方法及方向

機器學習：Logistic迴歸背後的數學

機器學習：帶你瞭解決策樹

機器學習：梯度下降和正規方程

機器學習：Word嵌入和Word2Vec簡介

機器學習：使用TensorFlow構建LSTM模型詳細教程

機器學習：葡萄酒質量預測模型教程

「機器學習」權重初始化的幾個方法

前輩說先學會了這些Python知識點，再談學習人工智慧、機器學習

機器學習：TensorFlow中的L1正則化

機器學習：使用時間序列預測的Bitcoin Price預測模型

機器學習：如何計算CNN中的參數數量？

機器學習-模型的評估和選擇

05.15 機器學習-我媽媽也能看懂的入門篇

數據科學家基礎能力——機器學習

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪