10個數據清洗小技巧,快速提高你的數據質量


10個數據清洗小技巧,快速提高你的數據質量


數據質量在數據分析中的重要性毋庸置疑,其直接影響數據的產出和數據價值的高低,通常我們對數據質量的判斷主要依據準確性、完整性和一致性三方面。但是,這幾點原始數據往往並不具備。所以數據清洗成為了數據分析的重要前提,並且佔據了整個數據分析工作中80%的時間。

那麼如何通過數據清洗來提高數據質量呢?接下來小編就來教大家10個數據清洗小技巧,希望能幫助小夥伴們提高工作效率~

1、準備工作

拿到數據表之後,先做這些準備工作,方便之後的數據清洗。

(1)給每一個sheet頁命名,方便尋找

(2)給每一個工作表加一列行號,方便後面改為原順序

(3)檢驗每一列的格式,做到每一列格式統一

(4)做數據源備份,防止處理錯誤需要參考原數據

(5)刪除不必要的空行、空列

2、統一數值口徑

這是個無聊而必要的步驟。例如我們統計銷售任務指標,有時用合同金額有時用回款金額,口徑經常不統一。統計起來就很麻煩。所以將不規範的數值改為規範這一步不可或缺。


10個數據清洗小技巧,快速提高你的數據質量


3、刪掉多餘的空格

原始數據中如果夾雜著大量的空格,可能會在我們篩選數據或統計時帶來一定麻煩。如何去掉多餘的空格,僅在字符間保留一個空格?

(1)手動刪除。如果只有三五個空格,這可能是最快的方式。

(2)函數法

在做數據清洗時,經常需要去除數據兩端的空格,那麼TRIM、LTRIM、RTRIM這3個函數就可以幫到你啦~

TRIM函數:主要是用來去除單元格內容前後的空格,但不會去除字符之間的空格。表達式:=TRIM(文本)

ps:LTRIM、RTRIM與TRIM函數的使用方法一樣~

LTRIM函數:用來去除單元格內容左邊的空格;RTRIM函數:用來去除單元格內容右邊的空格。

4、字段去重

強烈建議把去重放在去除空格之後,因為多個空格導致工具認為“顧納”和“顧 納”不是一個人,去重失敗。

按照“數據”-“刪除重複項”-選擇重複列步驟執行即可。(單選一列表示此列數據重複即刪除,多選表示多個字段都重複才刪除。)


10個數據清洗小技巧,快速提高你的數據質量


5、填補缺失值

由於人工錄入或者數據爬蟲等多方面的原因,會出現缺失值的情況,這就需要我們尋找漏網之“數據”,填充空缺值。

如何統計有多少缺失值?

先看ID唯一列有多少行數據,參考excel右下角的計數功能,對比就可以知道其他列缺失了多少數據。

如何定位到所有缺失值?

Ctrl+G,選擇定位條件,然後選擇空值。

缺失值的處理方法:

(1)人工補全。適合數據量少的情況。

(2)刪除。適用於樣本較大的情況,樣本較小時,可能會影響最終的分析結果 。

(3)根據數據的分佈情況,可以採用均值、中位數、或者眾數進行數據填充。

數據均勻,均值法填充;數據分佈傾斜,中位數填充。

(4)用模型計算值來代替缺失值。

迴歸:基於完整的數據集,建立迴歸方程。將已知屬性值代入方程來估計未知屬性值,以估計值來進行空值得填充。

極大似然估計:基於缺失類型為隨機缺失得條件下,假設模型對於完整的樣本是正確的,通過觀測數據的邊際分佈可以對缺失數據進行極大似然估計。

(5)插補法

隨機插補法:從總體中隨機抽取某幾個樣本代替缺失樣本。

多重填補法:包含m個插補值的向量代替每一個缺失值的過程,要求m大於等於20。m個完整數據集合能從插補向量中創建。


10個數據清洗小技巧,快速提高你的數據質量


6、異常值處理

異常值:指一組測定值中與平均值的偏差超過兩倍標準差的測定值。

對異常值處理,需要具體情況具體分析,一般而言,異常值的處理方法常用有以下3種:

(1) 不處理

(2)用平均值替代

利用平均值來代替異常值,損失信息小,簡單高效。

(3)視為缺失值

將異常值視為缺失值來處理,採用處理缺失值的方法來處理異常值。

7、拆分單元格

按照以下步驟對合並單元格進行拆分並填充:

(1)點擊取消合併單元格


10個數據清洗小技巧,快速提高你的數據質量


(2)空白單元格定位:點擊定位-選擇空白


10個數據清洗小技巧,快速提高你的數據質量


(3)寫上=上個單元格


10個數據清洗小技巧,快速提高你的數據質量


(4)Ctrl+Enter

8、分組計算

通過VLOOKUP函數將字段合在一起用於計算。

VLOOKUP(lookup_value,table_array,col_index_num,range_lookup)


10個數據清洗小技巧,快速提高你的數據質量


9、固定寬度截取

固定寬度截取:

mid(text,start_num,num_chars);

其中:text表示要截取的字符串,start_num表示從第幾位字符串開始截取,num_chars表示要截取的字符數。


10個數據清洗小技巧,快速提高你的數據質量


10、二維錶轉換

(1)插入數據透視表

(2)選擇“使用多重合並計算區域”


10個數據清洗小技巧,快速提高你的數據質量


(3)點擊“選定區域”


10個數據清洗小技巧,快速提高你的數據質量


(4)選擇所需要處理的區域後點擊“添加”按鈕

(5)點擊“完成”後點擊“確認”

(6)彈出數據透視的頁面,雙擊右下角的數字即可


10個數據清洗小技巧,快速提高你的數據質量


最後,再強調一下,在進行數據清洗之前,一定一定一定要記得備份你的數據源!

-數據分析展示就用DataHunter-


分享到:


相關文章: