數據挖掘,機器學習與深度學習中聚類、關聯、決策跟分類是什麼?

皮皮的鼓勵


①樸素貝葉斯:

原理è   樸素貝葉斯分類器基於一個簡單的假定:給定目標值時屬性之間相互條件獨立。

條件概率:在B已經發生的情況下繼續發生A的概率表示為,同樣的,綜合可得即貝葉斯定理;文字表述為:

P(類別|特徵)=(P(特徵|類別)*P(類別))/P(特徵)

過程è  在勞動能力鑑定系統的使用中,(1)根據政府發佈的傷殘等級評定標準構建病例詞典;(2)首先對病例進行分詞,提取關鍵詞的詞頻向量和數值大小,使用貝葉斯算法判定待鑑定人員的殘疾級別;

應用è  垃圾郵件過濾、貸款風險預測

②決策樹:

原理è  ID3算法主要針對屬性選擇問題。是決策樹學習方法中最具影響和最為典型的算法。該算法是在樹的各個內部節點處尋找一個屬性,該屬性能最好地將訓練集進行分類。依據貪婪算法,為了使下一步所需的信息量最小,要求每一次都選擇其信息增益最大的屬性作為決策樹的新節點。(常用算法包括ID3和C4.5)

過程è(1)選擇一個特徵對樣本進行分類,分類的好壞一般取決於樣本集分類後的純度(一般用熵來表示);(2)對分類後的子集遞歸進行步驟1;ID3步驟:(1)如果數據庫中的數據都屬於同一個類,N就是樹葉,在樹葉上 標出所屬的類;如果數據表中沒有其他屬性可以考慮,則N也是樹葉,按照少數服從多數的原則在樹葉上標出所屬類別。否則,根據平均信息期望值E或GAIN值選出一個最佳屬性作為節點N的測試屬性;(2)節點屬性選定後,對於該屬性中的每個值:從N生成一個分支,並將數據表中與該分支有關的數據收集形成分支節點的數據表,如果分支數據表非空,則運用以上方法從該節點進一步建立子樹。

應用è  保險行業和醫療行業的輔助診斷

③KNN算法

原理è  kNN算法的核心思想是如果一個樣本在特徵空間中的k個最相鄰的樣本中的大多數屬於某一個類別,則該樣本也屬於這個類別,並具有這個類別上樣本的特性。該方法在確定分類決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。kNN方法在類別決策時,只與極少量的相鄰樣本有關。由於kNN方法主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來確定所屬類別的,因此對於類域的交叉或重疊較多的待分樣本集來說,kNN方法較其他方法更為適合。

過程è  (1)準備數據,對數據進行預處理;(2)選用合適的數據結構存儲訓練數據和測試元組;(3)設定參數,如k;(4)維護一個大小為k的的按距離由大到小的優先級隊列,用於存儲最近鄰訓練元組。隨機從訓練元組中選取k個元組作為初始的最近鄰元組,分別計算測試元組到這k個元組的距離,將訓練元組標號和距離存入優先級隊列;(5)遍歷訓練元組集,計算當前訓練元組與測試元組的距離,將所得距離L 與優先級隊列中的最大距離Lmax;(6)進行比較。若L>=Lmax,則捨棄該元組,遍歷下一個元組。若L < Lmax,刪除優先級隊列中最大距離的元組,將當前訓練元組存入優先級隊列;(7)遍歷完畢,計算優先級隊列中k 個元組的多數類,並將其作為測試元組的類別;(8)測試元組集測試完畢後計算誤差率,繼續設定不同的k值重新進行訓練,最後取誤差率最小的k 值。

應用è  文本分類、手寫體識別

④k-means算法

原理è  K-means算法是很典型的基於距離的聚類算法,採用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大。該算法認為簇是由距離靠近的對象組成的,因此把得到緊湊且獨立的簇作為最終目標。注意:聚類個數K和初始聚類中心不易確定,會對算法產生較大的影響。

過程è  (1)確定聚類中心;(2)計算每個簇到聚類中心的距離;(3)根據這個距離劃分簇群;(4)計算簇群的平均位置,移動聚類中心到該位置上;(4)重複(2)(3)步,直到聚類中心不再移動,說明該算法收斂,算法結束。

應用è  客戶分類、文檔分類、物品傳輸優化(使用K-means尋找最佳地點)

⑤線性迴歸

原理è  通過最小化損失函數獲得最佳線性方程描述實際問題;

過程è  (1)根據實際問題建立線性方程:;(2)建立損失函數方程:;(3)通過梯度下降或最小二乘法最小化損失函數;(4)求得線性方程中的未知變量。

應用è  商品、市場的定價、預測與機器學習中參數調優

⑥apriori算法

原理è  使用逐層迭代方法並限制候選集的產生找出頻繁項集;

過程è  首先掃描數據庫,累計每項產生動作的個數,並收集滿足最小支持度的項,找出頻繁1項集的集合,記為L1,通過置信度限制不能達到要求的項集(剪枝步),並通過L1自行迭代出L2(連接步),同樣限制未達到要求的頻繁2項集,最終直到不能再找到頻繁K項集。

應用è  廣泛應用於商業信息分析、活動推廣中;

⑦FP-tree

原理è  作為一個挖掘頻繁項集的算法,Apriori算法需要多次掃描數據,I/O是很大的瓶頸。為了解決這個問題,FP Tree算法(也稱FP


Kyle在奮鬥


大數據的挖掘常用的方法有分類、迴歸分析、聚類、關聯規則、神經網絡方法、Web 數據挖掘等。這些方法從不同的角度對數據進行挖掘。

所以總體可以認為深度學習跟機器學習都屬於數據挖掘的方法。

(1)分類

分類是找出數據庫中的一組數據對象的共同特點並按照分類模式將其劃分為不同的類。

比如我們在電商商平臺上的各類產品,肯定要按照產品屬性進行分類,對應的數據挖掘的分類,就是利用屬性去尋找有共同特點的數據對象,歸到一個大集合。

(2)迴歸分析

迴歸分析反映了數據庫中數據的屬性值的特性,通過函數表達數據映射的關係來發現屬性值之間的依賴關係。

比如,我們有了過去三年的銷售數據,我們就可以抽象出影響銷售的因素,對未來的銷售數據做出預測。

(3)聚類。聚類類似於分類,但與分類的目的不同,是針對數據的相似性和差異性將一組數據分為幾個類別。

(4)關聯規則

關聯規則是隱藏在數據項之間的關聯或相互關係,即可以根據一個數據項的出現推導出其他數據項的出現。

我們最喜歡舉得例子,就是爸爸去超市購物的例子,爸爸去超市買奶粉,如果在旁邊放上爸爸喜歡的啤酒起子、酒精飲料,肯定能引導消費。

(5)神經網絡方法。神經網絡作為一種先進的人工智能技術,因其自身自行處理、

分佈存儲和高度容錯等特性非常適合處理非線性的以及那些以模糊、不完整、不 嚴密的知識或數據為特徵的處理問題,它的這一特點十分適合解決數據挖掘的問題。

目前的大數據處理,已經不是結構數據為天下,而是有大量文本、音頻、視頻、圖像等非線性數據,所以基於神經網絡的深度學習算法,目前已經蓬勃發展,不可阻擋的改變著一切。

(6)Web數據挖掘。Web數據挖掘是一項綜合性技術,指Web 從文檔結構和使用的集合C 中發現隱含的模式P,如果將C看做是輸入,P 看做是輸出,那麼Web 挖掘過程就可以看做是從輸入到輸出的一個映射過程。

這個我個人的理解,更像是用戶行為畫像,目前基於HTML5的前端頁面,已經有了充足的信息獲取能力,比起之前的HTML靜態頁面,實在太強了。以前困惑我們的用戶的分類問題、網站內容時效性問題,用戶在頁面停留時間問題,頁面的鏈入與鏈出數問題等已經慢慢得到了解決。


分享到:


相關文章: