數據分析演練:這期是數據處理和繪圖的主場（附數據集和源碼）

佚名

2020-10-27 20:34:07

今天，讓我們活動活動筋骨，來一場數據分析的演練，下方代碼親跑無誤！

另外，還是老樣子，值得深入學習的知識，添加了對應的官方文檔鏈接！

1.數據加載

<code>

import

numpy

import

pandas

pd/<code>

<code>

data

=pd.read_csv(

"Adult.csv"

)

data

.head()/<code>

輸出結果：

注意：文件擴展名可能並不總是反映其真實結構。 CSV文件中的值是否真的以逗號分隔呢？

查看過原數據文件之後，發現是以tab鍵分隔的，為了以正常的格式讀取顯示，解決辦法就是：

<code>

data

=pd.read_csv(

"Adult.csv"

,sep=

"\t"

)

data

.head()/<code>

輸出結果：

2.數據理解

X(序號)；age（年齡）；workclass（工作類型）；education（教育程度）；occupation（職業）；capital.gain（資本收益）；capital.loss（資本損失）；native.country（國籍）；salaries（工資）；jobsatisfaction（工作滿意度）；male（男性）；female（女性）

3.數據清洗

3.1 樣本數據相關信息概覽

<code>

data

.info

()/<code>

輸出結果：

<code>

data

.describe

()/<code>

輸出結果：

沒發現特別的異樣，再來看看其他數據~

3.2 查看非數值數據的取值

<code>

for

data

.api

.types

.is_object_dtype

(

data

[i]

(

+": "+

str

(

data

[i]

.unique

()))/<code>

輸出結果：

發現一水兒的錯誤，應該怎麼辦？

多個屬性出現缺失值？，包括age、workclass、occupation、native.country；年齡age出現負數-57，出現超大值320；workclass中存在拼寫錯誤：privat；native.country中存在錯誤：' United-States'、'Unitedstates'和'UnitedStates'應該是屬於同一個值，並且我們還發現：' United-States'和 'United-States' 竟然也不是同一個值，原來，是因為某些值的前面存在空格的原因；jobsatisfaction存在字符串“Very good”。

接下來，一個一個解決~

3.3 去掉字符串前空格

<code>

for

data

pd.api.types.is_object_dtype(

data

[i]):

data

[i]=

data

[i].str.strip()/<code>

3.4 處理缺失值？

3.4.1 查看缺失值數量及百分比

<code>total = (

data

"?"

).sum() percent = (

data

"?"

).sum() /len(

data

100

pd.concat([total, percent], axis =

,keys= [

'Total'

'Percent'

])/<code>

更多關於concat的用法，請戳官方鏈接：https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html

輸出結果：

3.4.2 直接去掉包含缺失值？的行（第一種處理方法：一招團滅~）

<code>

data1

= data[data.age !=

'?'

]

data2

=data[(data !=

'?'

).all(

)] /<code>

3.4.3 用np.nan替換所有非敏感值（第二種處理方法）

<code>

data

= data.replace(

'?'

,np.nan)/<code>

接下來，挨個兒找問題單挑！

==處理age列==

<code> data['age'] = data['age'].replace([

'-57'

'320'

], np.nan) age_num = pd.to_numeric(

data

[

'age'

errors

'coerce'

) age_mean =

int

(age_num.mean())

data

[

'age'

].replace(np.nan, age_mean, inplace=

True

) /<code>

==處理workclass列==

<code>data[

'workclass'

].replace(np.nan,

"Private"

,inplace=

True

) data[

'workclass'

].replace(

'privat'

"Private"

,inplace=

True

) /<code>

找個辦法驗證一下：

<code>

data

[

'workclass'

]

.unique

()/<code>

輸出結果：

確實沒問題哈，繼續~

==處理occupation列==

<code>data[

'occupation'

].replace(np.nan,

"Other"

,inplace=

True

) /<code>

==處理native.country列==

<code>

data

[

'native.country'

].replace(

'Unitedstates'

'United-States'

,inplace = True)

data

[

'native.country'

].replace(

'UnitedStates'

'United-States'

,inplace = True)

data

[

'native.country'

].replace(np.nan,

'United-States'

,inplace = True) # 把

native

.country列的空值替換為

'United-States'

，也可以把空值的行去掉/<code>

==處理jobsatisfaction列==

<code>

data

[

data

[

'jobsatisfaction'

]==

'Very good'

]

data

.replace(

'Very good'

, inplace = True) # 查看數據集之後，這裡把

'Very good'

替換成了

，也可以替換成其它合適的數，或者直接去掉，因為只有一條這樣的數據，不影響。/<code>

4.數據可視化

4.1 age列頻率直方圖

<code>

data

[

'age'

data

[

'age'

].astype(

"int64"

) plt.hist(

data

[

'age'

],bins=

,density=True,color=

"#436EEE"

)/<code>

輸出結果：

4.2 occupation列相對頻率直方圖

<code>counts=

data

[

'occupation'

].value_counts() counts=counts/sum(counts) sns.barplot(counts.index, counts.values, palette=

"rocket"

) plt.xticks(rotation=

)/<code>

輸出結果：

4.3 salaries 密度直方圖

<code>

data

[

"salaries"

].plot(kind=

"kde"

) # 密度圖 plt.hist(

data

[

'salaries'

],bins=

,density=True,color=

"#436EEE"

)/<code>

輸出結果：

4.4 Male and Female餅圖

<code>gender = data

[['male', 'female']]

.agg([

'count'

]) /

len

(data) # agg：指定軸上的一項或多項操作進行彙總 labels = [

"male"

"female"

] plt.pie(x=gender, labels=labels, autopct=

'%1.1f%%'

)/<code>

輸出結果：

更多關於agg的用法，請戳官方鏈接：https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.agg.html

4.5 創建並打印一個數據框，其中每一行代表一個職業，每一列代表一個受教育程度，並且表格中的單元格包含具有相應職業和受教育程度的人們的平均工資。

<code>crossdf=pd.crosstab(

data

[

'occupation'

data

[

'education'

],values=

data

[

'salaries'

],aggfunc=np.average) crossdf/<code>

輸出結果：

<code>

for

index

, row in crossdf.iterrows(): fig = plt.figure(figsize=[

]) sns.barplot(row.sort_values().index, row.sort_values().values, palette=

"rocket"

) plt.xticks(rotation=

) plt.title(

index

)/<code>

部分輸出結果：

大家可以通過評論或私信的方式提出對本文的建議，也可以通過點贊加轉發的方式表達對本文的支持！

感謝大家！！！

如果需要代碼，請大家在評論區留言即可，如果方便的話，也可隨手來個轉發+關注噢。

1.數據加載

2.數據理解

3.數據清洗

3.1 樣本數據相關信息概覽

3.2 查看非數值數據的取值

3.3 去掉字符串前空格

3.4 處理缺失值？

4.數據可視化

4.1 age列頻率直方圖

4.2 occupation列相對頻率直方圖

4.3 salaries 密度直方圖

4.4 Male and Female餅圖

4.5 創建並打印一個數據框，其中每一行代表一個職業，每一列代表一個受教育程度，並且表格中的單元格包含具有相應職業和受教育程度的人們的平均工資。

相關文章:

Integer 中你所不知道的

String性能提升10倍的幾個方法，看完受益匪淺！(源碼+原理分析)

電腦看世界

源碼指標：快牛信號？擺脫弱勢股，看都不想看

MacOS下JVM調試執行JAR包

MacOS下JVM虛擬機編譯

通達信主圖指標源碼之，紅多黃空

促進農村太陽能路燈發展條件——源碼太陽能路燈

起步，向未來邁步—2017源碼幹部任命大會圓滿召開

從源碼分析 Android Button 點擊效果

通達信看盤軟件的自動畫線波浪理論指標分享（附帶源碼）

找到上升趨勢25度角，選出的股票上漲空間大，公式源碼全

ThreadLocal的源碼深入探究

「源碼」常用的人臉識別數據庫以及上篇性別識別源碼

網站索引量下降怎麼辦？

SpringCloud部分源碼解析

4面字節成功定級2-2，入職30K16薪，全靠這份PDF大全

基於Spring Boot+Spring Cloud框架構建的微服務項目源碼分享

python-生成器與迭代器

「前端詞典」學習 Vue 源碼的必要知識儲備

300編程套源碼集，200各類編程本電子書，小白變大神必備

收好了！8個讓你減少脫髮的VSCode插件

《騎馬與砍殺2：霸主》系統改良綜合性MOD

4000字！教你如何提升String性能（源碼+原理分析）

企業級的SaaS多租戶微服務平臺SpringBlade 項目，源碼分享

基於SpringBoot和Vue的企業級中後臺項目（附源碼）

APICloud終於道歉了，但DCloud呼籲其真正反思

Revit二次開發，創建任意視角的3d視圖

「JavaScript」Nodejs之Koa源碼解讀

關於信用卡智能代還軟件為什麼會火的問題。福州卡易捷說：

來,讓我們人手一個交易所

微信小程序視頻教程 附送10000套小程序模板帶後臺商城源碼

《微信小程序教學視頻》《小程序1800套源碼》，助你玩轉小程序！

3年Java開發者面試標配：源碼、高併發、JVM調優、Redis？我吐了

Spring的面試題就是無底洞 反正我是怕了

緊張的去京東面試p7，沒想到可以成功拿下offer

「硬件雜談」分享一套基於ST MCU做的開源代碼，有興趣的進來看下

非科班出身，想轉行大數據開發，最詳細的學習路線是怎麼樣的？

智能代還養卡系統開發,OEM貼牌,原生源碼出售定製

淘寶網是誰開發的？怎麼搭建像淘寶這樣的大型商城?

「源碼分享」源碼地址大全

SpringBoot2.0實戰（4）配置攔截器

原生源碼支付系統 信用卡智還系統開發流程

小白也能看懂：一文學會入門推薦算法庫 surprise

乾貨！基於FPGA之低速協議設計實驗手稿及源碼

2020最新開源基於Java 的Springboot 微服務系統調試實戰

你真的不用再設置 GOROOT 了

Go 筆記之從詞法分析角度聊 Go 代碼組成

潛逃壓力過大暴瘦40多斤，一涉黑A級通緝犯在河北投案自首

當我們在談 SaaS 的時候，在談什麼？

合同詐騙的類型有哪些？企業無力償還借款是否構成合同詐騙罪？

5月西安招聘會時間安排來了！找工作的別錯過

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

全球鬧「美元荒」帶動穩定幣需求暴增！以太坊交易量創近兩年新高

“幫助當地居民解決用水難題”-今日頭條-手機光明網

灌籃高手無水印壁紙，每一張都是回憶

通遼藍天救援隊成功解救遼河公園水上被困群眾

5月6日·武漢要聞及抗擊肺炎快報

肖副省長等省市領導到孝感市楚澴中學調研九年級復學暨疫情防控常態化工作

相聲界的顏值擔當張雲雷稱號大揭祕

美國百年薅羊毛攻略

《全職高手》：一口氣刷了10集，對楊洋路轉粉了

共同承擔責任！Rookie談BP問題：輸了是我們打得太臭

LOL"中韓對抗賽"遭選手反對？Zoom直言不想打，Doinb的回答太真實

李亞鵬攜李嫣出席慈善晚會，李嫣手上鑽戒搶鏡，1個動作獲誇讚！

53歲郭富城再度升級當爸，方媛懷二胎，Chant要做姐姐了

微信小程序視頻教程附送10000套小程序模板帶後臺商城源碼

Spring的面試題就是無底洞反正我是怕了

原生源碼支付系統信用卡智還系統開發流程

應急科普丨“五一” 期間氣溫回升謹防森林火災隱患