數據分析算法與軟件概覽

數據分析算法與軟件概覽

統計學習算法

  • 描述統計:描述統計是通過圖表或數學方法,對數據資料進行整理、分析,並對數據的分佈狀態、數字特徵和隨機變量之間關係進行估計和描述的方法。如平均數、中數、眾數等統計指標來表示數據的集中趨勢,方差、標準差等統計指標來研究數據的離散趨勢;

  • 假設檢驗:它是根據原資料作出一個總體指標是否等於某一個數值,某一隨機變量是否服從某種概率分佈的假設,然後利用樣本資料採用一定的統計方法計算出有關檢驗的統計量,依據一定的概率原則,以較小的風險來判斷估計數值與總體數值(或者估計分佈與實際分佈)是否存在顯著差異,是否應當接受原假設選擇的一種檢驗方法;

  • 方差分析:主要目的是通過對方差的比較來檢驗多個均值之間差異的顯著性;

  • 相關分析:研究變量之間相關的方向和相關的程度;

  • 迴歸分析:可以確定變量之間相互關係的具體形式(迴歸方程),確定一個變量對另一個變量的影響程度,並根據迴歸方程進行預測;

  • 聚類分析:聚類是將數據分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性;

  • 主成分分析:由於多個變量之間往往存在著一定程度的相關性,人們自然希望通過線性組合的方式,從這些 指標中儘可能快地提取信息。當這些變量的第一個線性組合不能提取更多的信息時,再考慮用第二個線性組合繼續這個提取的過程,......,直到提取足夠多的信息為止,這就是主成分分析的思想;

  • 因子分析:是一種數據簡化的技術,它通過研究眾多變量之間的內部依賴關係,探求觀測數據中的基本結構,並用少數幾個假想變量來表示其基本的數據結構。這幾個假想變量能夠反映原來眾多變量的主要信息。原始的變量是可觀測的顯在變量,而假想變量是不可觀測的潛在變量,稱為因子,原始變量共享潛在因子;

  • 時間序列分析:通過對一個區域進行一定時間段內的數據進行連續觀測,分析其變化過程與發展規模。

機器學習算法

主要分為:聚類、分類、迴歸預測等。

  • 聚類:所有數據只有特徵向量沒有標籤,但是可以發現這些數據呈現出聚群的結構,本質相似的類型的會聚集在一起。把這些沒有標籤的數據分成一個一個組合,就是聚類。

  • 常用聚類算法有:k均值,模糊均值,密度聚類,層次聚類等;

  • 分類:所有數據由特徵向量和它們的標籤組成,當你學習了這些特徵向量之後,給你一個只知道特徵向量不知道標籤的數據,你可以對這個數據進行預測,給出其標籤;

  • 常見的分類算法有:K近鄰、決策樹、貝葉斯、支持向量機、神經網絡等;

  • 迴歸分析:所有數據的特徵向量和標籤可以用函數式進行表達,利用這個函數解析式可以對未知數據進行預測,當你輸入一個自變量,根據函數解析式輸出一個因變量,這些自變量就是特徵向量,因變量就是標籤;

  • 線性迴歸:單變量線性迴歸,多元(變量)線性迴歸;

  • 非線性迴歸:Logistic迴歸,多元邏輯迴歸等。

深度學習算法

  • 卷積神經網絡CNN:梯度下降法、卷積層、池化層、全連接層、softmax層等;

  • 遞歸神經網絡RNN、長短時記憶神經網絡:LSTM;

具體應用:

  • 獨立型:圖像分類、人臉識別;

  • 連續型:語音識別、翻譯;

常見數據分析軟件

1、spss

全稱:Statistical Product and Service Solutions,統計產品與服務解決方案。

是一款用於統計學分析運算、數據挖掘、預測分析和決策支持任務的軟件產品;

包括描述性統計、均值比較、一般線性模型、相關分析、迴歸分析、對數線性模型、聚類分析、數據簡化、生存分析、時間序列分析、多重響應等幾大類。

操作簡單,編程方便,數據接口。

2、tabelau

致力於幫助人們查看並理解數據,幫助任何人快速分析、可視化並分享信息;

Tableau公司將數據運算與美觀的圖表完美地嫁接在一起。它的程序很容易上手,各公司可以用它將大量數據拖放到數字“畫布”上,轉眼間就能創建好各種圖表;

不需任何編程;

3、sas

全稱statistic analysis system,統計分析軟件;是一個模塊化、集成化的大型應用軟件系統;

SAS提供了從基本統計數的計算到各種試驗設計的方差分析,相關回歸分析以及多變數分析的多種統計分析過程;

需要編程技能。


分享到:


相關文章: