推送!10大主流AI模型適用盤點

人工智能和機器學習的出現,讓各大企業瞬間走上捷徑,不管是運營效率還是生產利潤都得到了顯著的提升。但世界上是沒有“免費午餐”的,企業面臨的問題數組龐大,用於解決這些問題的ML模型種類相當廣泛,每一種算法擅長的領域都不同,選擇一種合適的算法模型成為企業棘手難題。

本文彙總了當下最流行的10種AI算法,對它們的優點進行了詳細梳理,以供觀摩!

10種流行AI算法:

1、線性迴歸

2、Logistic迴歸

3、線性判別分析

4、決策樹

5、樸素貝葉斯

6、K-Nearest Neighbors

7、學習矢量量化

8、支持向量機

9、Bagging和隨機森林

10、深度神經網絡

在詳細介紹各大模型之前,我們先了解一下機器學習的基本原理。

機器學習的原理可以簡單的理解為學習函數(f),它提供輸入值(x)和輸出值(y)之間最精確的相關性。Y=F(X)

當我們擁有了一些歷史數據X、Y時,便可以套入AI模型,得出這些數據間最佳映射。機器學習不同於數學計算,它的結果不是100%的準確,只是一個最佳數值。但我們訓練的F函數可以用於使用新X預測新Y,從而實現預測分析。不同種類的ML模型實現最佳結果的方式都是不一樣的,但是基本原理都是一樣的。

線性迴歸

截止今日,線性迴歸在數學統計中被使用了200多年。算法的要點是找到係數(B)的值, 這些值對訓練函數精度的影響很大。

舉一個簡單的例子:y = B0 + B1 * x,其中B0 + B1就是需求。

推送!10大主流AI模型適用盤點

通過調整這些係數的權重,數據科學家可以獲得不同的訓練結果。該算法成功的核心要求是具有清晰的數據(不能有太多的“低值信息”),併除去具有相似值(相關輸入值)的輸出變量。

線性迴歸算法一般適用於金融、銀行、保險、醫療保健、營銷等行業,統計數據進行梯度下降優化。

Logistic迴歸

Logistic迴歸是另一種流行的AI算法,能夠提供二進制結果。這意味著該模型既可以預測結果,也可以指定y值的兩個類別。該函數可以改變算法的權重,但由於使用非線性邏輯函數來轉換結果,所以是不同的。此函數可以表示為將真值與虛值分開的S形線。

推送!10大主流AI模型適用盤點

該函數成功的要求與線性迴歸相同——去除相同值的輸入樣本並減少低值數據的數量。Logistic迴歸是一個比較簡單的函數,很好掌握,很適合二進制分類。

線性判別分析(LDA)

線性判別分析(LDA)是邏輯迴歸模型的一個分支,可以在輸出中存在兩個以上的類時使用。該模型可以計算數據的統計特性,如每個類別平均值和所有類別的總方差。預測允許計算每個類的值,並確定具有最高值的類。想要得到正確的結果,該模型需要根據高斯貝爾曲線分佈數據,事先去除所有的異常值。

決策樹

決策樹是最古老,最常用,最簡單和最有效的ML模型之一。它是一個經典的二叉樹,在模型到達結果節點之前,都需要確定是否進行拆分。

推送!10大主流AI模型適用盤點

該模型易於學習,不需要數據規範化,可以幫助解決多種類型的問題。

樸素貝葉斯(NBM)

樸素貝葉斯算法是一個簡單但非常強大的模型,用於解決各種複雜問題。它可以計算出兩種類型的概率:

1. 每個類出現的概率

2. 給定一個獨立類的條件概率,給出一個額外的x修飾符。

推送!10大主流AI模型適用盤點

這種模型會假設所有輸入數據彼此無關,因此也被稱為“幼稚模型”。雖然這些在現實生活中無法實現,但這種簡單的算法可以應用於多種標準化數據流,高精度地預測結果。

K-Nearest Neighbors(KNN)

K-Nearest Neighbors同樣也是一個非常簡單且強大的ML模型,使用整個訓練數據集作為表示字段。通過檢查具有相似值的K數據節點的整個數據集並使用歐幾里德數來計算結果值的預測,以確定結果值。

推送!10大主流AI模型適用盤點

這樣的數據集需要大量的計算資源來存儲和處理數據,但當存在多個屬性且必須不斷地策劃時會遭受精度損失。但是它工作速度極快,能夠非常準確且高效的在大型數據集中查找所需值。

學習矢量量化(LVQ)

KNN唯一的缺點是需要存儲和更新大型數據集。學習矢量量化(LVQ)是KNN模型的進化版,它是使用碼本矢量來定義訓練數據集並編碼所需結果的神經網絡。因此,這些向量最初是隨機的,在學習的過程中可以調整它們的值來最大化預測精度。

推送!10大主流AI模型適用盤點

因此,找到具有最相似值的向量可以預測結果值的最高準確度。

支持向量機(SVM)

支持向量機是數據科學家討論最廣泛的算法之一,因為它為數據分類提供了非常強大的功能。所謂的超平面是用不同的值分隔數據輸入節點的線,當同一類的所有數據實例都在超平面的同一側,即支持向量;當數據點在其類平面之外,即不支持向量。

推送!10大主流AI模型適用盤點

好的超平面具有最大正向量且能夠分離大多數數據節點。它是一個非常強大的分類機器,可以應用於各種數據規範化問題。

Bagging和隨機森林

隨機決策森林由決策樹組成,其中多個數據樣本由決策樹處理,將結果聚合(如收集袋中的許多樣本)在一起來找到更準確的輸出值。

推送!10大主流AI模型適用盤點

不是找到一條最佳路線,而是定義了多條次優路線,從而使整體結果更加精確。如果決策樹能夠解決您的需求,那麼隨機森林可以作為一種優化方式,使結果更加完善。

深度神經網絡(DNN)

推送!10大主流AI模型適用盤點

深度神經網絡是使用最廣泛的AI和ML算法之一,其工作原理是模仿人腦思考方式,使軟件的語音識別速度更快,識別準確率更高。它擅長改善深基於學習的文本和語音應用程序,機器感知深層神經網絡和OCR等。

總結

AI模型和ML模型種類繁多,有的適合數據分類,有的適合數據規劃。沒有一款模型能夠適合所有的問題,因此選擇一種合適的AI模型至關重要。

那麼如何判斷哪個模式更匹配您的需求呢?以下是一些幫助判斷的要點:

1. 您需要處理的3V大數據(輸入的數量,種類和速度)

2. 您可以使用的計算資源數量

3. 您處理數據的時間限制

4. 數據處理的目標

綜上所述,如果一個模型可以提供94%的預測精度,另一個模型可以提供86%的預測精度,但是高精度模型的處理時間是低精度模型處理時間的兩倍,那麼就需要您基於上述條件去做選擇。

但是,目前還存在一個比較大的問題是很多企業普遍缺乏設計、實施數據分析以及機器解決方案所需的專業知識。這就是為什麼有那麼多的企業都去選擇專門的託管服務提供商。


轉載於:http://blog.itpub.net/31545819/viewspace-2221163/


分享到:


相關文章: