初探數據質量分析


寫在前面:在進行數據摸底的時候,我們最後需要出具一份數據質量分析報告,檢測出數據存在的質量問題。如何快速檢查出數據存在的質量問題呢?今天小編就給大家提供一個好用數據質量分析的方法,這次分析的樣本數據是人員基本信息。


第一步:數據完整性

data = pandas.read_excel(r'C:\Users\Tomtat\Desktop\jzgxx.xlsx') # 讀取文件

null =data.isnull().sum() # 統計字段為空數量

null_col = null[null>0] # 取出數據缺失字段信息


初探數據質量分析

我們這樣就能夠很直接、清晰的看到數據的一個缺失情況了。


第二步:數據唯一性


# 數據完整性

detail = data.describe(include=['object'])


初探數據質量分析

關於數據唯一性的展示,通過分析數據輸出至excel 我們可以明顯的看出 數據的非空值數、唯一值數、最高頻數以及對應的出現頻率。

從圖中圈出部分我們很容易就看出有三個人重名,還有兩個人身份證號重複,如此可以更快的幫我們定位數據問題。


分享到:


相關文章: