前言:數據和特徵決定機器學習的上限,而模型和算法只是逼近這個上限。
上篇回顧:
提示:本文先不必強求甚解,宜按圖索驥。
對數據的每一步操作請務必備份!備份!
一、數據清洗
缺失值處理
根據缺失率和重要性,分為去除字段、填充缺失值 、重新取數據。
其中,填充缺失值的方法有:
a. 以業務知識或經驗推測填充。
b.平均值、中值、分位數、眾數、隨機值、插值等來填充。
c. 建立一個模型來“預測”缺失的數據。
d. 引入虛擬變量以映射到高維空間。
2. 格式與內容處理
格式與內容的問題是五花八門的,下圖僅部分例子:
格式和內容處理是非常考究耐心和細心。
3. 去除重複的數據。
4. 噪音數據的處理
噪音數據過多,會導致模型泛化能力差。
但適當的噪音數據,有助於防止過擬合。
二、特徵提取與特徵選擇的區別
特徵提取(Feature Extraction):
特徵選擇(Feature Selection):
對比圖:
三、特徵提取基本方法
1.主成分分析(PCA)
閱讀更多 IT老友 的文章