統計學習算法

描述統計：描述統計是通過圖表或數學方法，對數據資料進行整理、分析，並對數據的分佈狀態、數字特徵和隨機變量之間關係進行估計和描述的方法。如平均數、中數、眾數等統計指標來表示數據的集中趨勢，方差、標準差等統計指標來研究數據的離散趨勢；
假設檢驗：它是根據原資料作出一個總體指標是否等於某一個數值，某一隨機變量是否服從某種概率分佈的假設，然後利用樣本資料採用一定的統計方法計算出有關檢驗的統計量，依據一定的概率原則，以較小的風險來判斷估計數值與總體數值(或者估計分佈與實際分佈)是否存在顯著差異，是否應當接受原假設選擇的一種檢驗方法；
方差分析：主要目的是通過對方差的比較來檢驗多個均值之間差異的顯著性；
相關分析：研究變量之間相關的方向和相關的程度；
迴歸分析：可以確定變量之間相互關係的具體形式(迴歸方程)，確定一個變量對另一個變量的影響程度，並根據迴歸方程進行預測；
聚類分析：聚類是將數據分類到不同的類或者簇這樣的一個過程，所以同一個簇中的對象有很大的相似性，而不同簇間的對象有很大的相異性；
主成分分析：由於多個變量之間往往存在著一定程度的相關性，人們自然希望通過線性組合的方式，從這些指標中儘可能快地提取信息。當這些變量的第一個線性組合不能提取更多的信息時，再考慮用第二個線性組合繼續這個提取的過程，......，直到提取足夠多的信息為止，這就是主成分分析的思想；
因子分析：是一種數據簡化的技術，它通過研究眾多變量之間的內部依賴關係，探求觀測數據中的基本結構，並用少數幾個假想變量來表示其基本的數據結構。這幾個假想變量能夠反映原來眾多變量的主要信息。原始的變量是可觀測的顯在變量，而假想變量是不可觀測的潛在變量，稱為因子，原始變量共享潛在因子；
時間序列分析：通過對一個區域進行一定時間段內的數據進行連續觀測，分析其變化過程與發展規模。

機器學習算法

主要分為：聚類、分類、迴歸預測等。

聚類：所有數據只有特徵向量沒有標籤，但是可以發現這些數據呈現出聚群的結構，本質相似的類型的會聚集在一起。把這些沒有標籤的數據分成一個一個組合，就是聚類。
常用聚類算法有：k均值，模糊均值，密度聚類，層次聚類等；
分類：所有數據由特徵向量和它們的標籤組成，當你學習了這些特徵向量之後，給你一個只知道特徵向量不知道標籤的數據，你可以對這個數據進行預測，給出其標籤；
常見的分類算法有：K近鄰、決策樹、貝葉斯、支持向量機、神經網絡等；
迴歸分析：所有數據的特徵向量和標籤可以用函數式進行表達，利用這個函數解析式可以對未知數據進行預測，當你輸入一個自變量，根據函數解析式輸出一個因變量，這些自變量就是特徵向量，因變量就是標籤；
線性迴歸：單變量線性迴歸，多元（變量）線性迴歸；
非線性迴歸：Logistic迴歸，多元邏輯迴歸等。