帶你走近被IEEE國際數據挖掘大會承認的最有影響力的算法!

有一天,當作者瀏覽https://paperswelove.org/時,發現了一篇有趣的文章,它被稱為數據挖掘中的十大算法。它試圖解釋研究領域中最有影響力的數據挖掘算法的重要性。

帶你走近被IEEE國際數據挖掘大會承認的最有影響力的算法!

為了找出在數據挖掘領域被廣泛使用的最有影響力的算法,IEEE國際數據挖掘會議(ICDM,http://www.cs.uvm.edu/~icdm/)確定了數據挖掘中的十大算法。本文將列出前5個算法。

什麼是算法?

算法是用有限的步驟解決數學問題(如求最大公約數)的程序,經常涉及到重複運算,通常是用計算機來解決問題或完成某一目的的一種步驟。

帶你走近被IEEE國際數據挖掘大會承認的最有影響力的算法!

一個算法應該有三個重要的特徵被認為是有效的:

1.精確度 - 步驟是精確規定的(定義)

2.唯一性 - 每個步驟的結果都獨立依賴輸入和前面步驟的結果

3.有限性 - 在有限數量的指令執行後,算法停止

4.輸入 - 算法接收輸入

5.輸出 - 算法產生輸出

6.一般性 - 該算法適用於一組輸入

現在,讓我們回到"數據挖掘中的前5個算法是什麼"的問題。在這裡本文列出了排名前5的算法,排列沒有特定的順序。

1. C4.5及以上

帶你走近被IEEE國際數據挖掘大會承認的最有影響力的算法!

構造分類器的系統是數據挖掘中常用的工具之一。這種系統將一組案件作為輸入,每個案例都屬於少數幾類中的一類,通過它的值來描述一組固定的屬性,並輸出一個能夠準確預測新案例所屬類別的分類器。

C4.5是由ROSS QuinlanC4.5開發的用於生成決策樹的算法,C4.5是Quinlan早期ID3算法的擴展。由C4.5生成的決策樹可以用於分類,因此C4.5通常被稱為統計分類器。 Weka機器學習軟件的作者將C4.5算法描述為"一種具有里程碑意義的決策樹程序,它可能是目前在實踐中應用最廣泛的機器學習工具"。

給定一組情況,C4.5首先使用分而治之算法生成一棵初始樹。 然後修剪初始樹以避免過度擬合。

2. k-means算法

帶你走近被IEEE國際數據挖掘大會承認的最有影響力的算法!

k-means算法是一種簡單的迭代方法,可將給定數據集劃分為用戶指定數量的簇。 k-means是解決眾所周知的聚類問題的最簡單的無監督學習算法之一。

該過程遵循一種簡單易行的方法,通過一定數量的聚類(假設k個聚類)對給定的數據集進行預先分類。主要思想是定義k箇中心,每個聚類一個。這些中心應該以巧妙的方式放置,因為不同的位置會導致不同的結果。所以,更好的選擇是儘可能放置的讓它們遠離彼此。下一步是獲取屬於給定數據集的每個點並將其與最近的中心相關聯。此時,我們需要重新計算k個新質心作為上一步產生的聚類的重心。在我們有這k個新的質心後,必須在相同的數據集點和最近的新中心之間進行新的綁定。一個循環已經生成。由於這個循環,我們可能會注意到k箇中心正在逐步改變它們的位置,直到不再做出任何改變或者換句話說,中心不再移動。最後,該算法旨在最小化平方誤差函數的目標函數:

帶你走近被IEEE國際數據挖掘大會承認的最有影響力的算法!

'|| xi - vj ||'是xi和vj之間的歐幾里得距離。

'ci'是第i個集群中的數據點數。

'c'是聚類中心的數量。

3.支持矢量機

帶你走近被IEEE國際數據挖掘大會承認的最有影響力的算法!

在當今的機器學習應用中,支持矢量機SVM被認為是必須嘗試的——它提供了所有眾所周知的算法中最穩健和最準確的方法之一。它具有良好的理論基礎,僅需要十幾個訓練例子,且不受維度的數量的影響。此外,訓練支持矢量機的有效方法也正在快速發展中。

在一個兩類學習任務中,支持矢量機的目的是找到最佳分類函數來區分訓練數據中兩個類的成員。"最佳"分類函數概念的度量可以通過幾何來實現。對於可線性分離的數據集,線性分類函數對應於通過兩個類中間的分離超平面f(x),將兩個類分開。一旦確定了這個函數,就可以通過簡單地測試函數f(xn)的符號來分類新的數據實例xn;如果f(xn)> 0,則xn屬於正類。

4. Apriori算法

帶你走近被IEEE國際數據挖掘大會承認的最有影響力的算法!

最流行的數據挖掘方法之一是從事務數據集中查找頻繁的項目集並導出關聯規則。查找頻繁的項目集(頻率大於或等於用戶指定的最小支持度的項目集)並非易事。一旦獲得頻繁的項目集,就可以直接生成關聯規則,並且其置信度大於或等於用戶指定的最小置信度。

Apriori是使用候選生成來找到頻繁項目集的一個重要算法。它的特點是使用項目集的反單調性的水平完整搜索算法,"如果項目集不頻繁,它的任何超集都不會頻繁"。按照慣例,Apriori會假設事務或項目集中的項目按字典順序排序。

在數據挖掘中可以用來查找算法的模式有許多,如決策樹、分類規則和數據挖掘中經常使用的聚類技術都是在機器學習研究團體中發展起來的。頻繁的模式和關聯規則挖掘是這個傳統的少數例外之一。這項技術的引入推動了數據挖掘研究,其影響是巨大的。該算法非常簡單,易於實現。

5. 樸素貝葉斯

帶你走近被IEEE國際數據挖掘大會承認的最有影響力的算法!

給定一組對象,每一對象屬於一個已知的類,並且每一個對象都有一個已知的變量向量,我們的目標是構造一個規則,它允許我們只用給出向量描述未來對象的變量就可將未來的對象分配給一個類。

這種被稱為監督分類的問題是普遍存在的,並且已經開發了許多構建這種規則的方法。一個非常重要的問題是樸素貝葉斯方法——也稱為愚蠢者的貝葉斯、簡單貝葉斯和獨立貝葉斯。這種方法很重要,原因有幾個:它非常容易構造,不需要任何複雜的迭代參數估計方案。這意味著它可能很容易應用於龐大的數據集。這很容易解釋,因此對分類器技術不熟練的用戶可以理解為什麼要進行分類。最後,它通常做得非常好,它可能不是在任何特定應用程序中最好的分類器,但它是可靠的並且可以做得相當好。

最後,作者想補充一點,這個清單應該被視為一個觀點,而不是一個全面的清單。本文列出了前5個算法,清單中的其他算法有PageRank、AdaBoost、kNN、CART和EM算法。


分享到:


相關文章: