機器學習之數據清洗、特徵提取與特徵選擇

前言:數據和特徵決定機器學習的上限,而模型和算法只是逼近這個上限。

上篇回顧:

提示:本文先不必強求甚解,宜按圖索驥。

機器學習之數據清洗、特徵提取與特徵選擇

對數據的每一步操作請務必備份!備份!

機器學習之數據清洗、特徵提取與特徵選擇

一、數據清洗

  1. 缺失值處理

機器學習之數據清洗、特徵提取與特徵選擇

根據缺失率和重要性,分為去除字段填充缺失值

重新取數據

其中,填充缺失值的方法有:

a. 以業務知識或經驗推測填充。

b.平均值、中值、分位數、眾數、隨機值、插值等來填充。

c. 建立一個模型來“預測”缺失的數據。

d. 引入虛擬變量以映射到高維空間。

機器學習之數據清洗、特徵提取與特徵選擇

2. 格式與內容處理

格式與內容的問題是五花八門的,下圖僅部分例子:

機器學習之數據清洗、特徵提取與特徵選擇

格式和內容處理是非常考究耐心和細心。

3. 去除重複的數據。

4. 噪音數據的處理

噪音數據過多,會導致模型泛化能力差。


但適當的噪音數據,有助於防止過擬合。

二、特徵提取與特徵選擇的區別

特徵提取(Feature Extraction):

機器學習之數據清洗、特徵提取與特徵選擇

特徵選擇(Feature Selection):

機器學習之數據清洗、特徵提取與特徵選擇

對比圖:

機器學習之數據清洗、特徵提取與特徵選擇

三、特徵提取基本方法

1.主成分分析(PCA)


分享到:


相關文章: