三分鐘教你Python數據分析—數據導入,小白基礎入門必看

今天我們來學習數據導入,需要使用到Pandas模塊。

模塊相當於是一個文件夾,它能夠用於存放同個主題相關的Python代碼段,包括定義函數、類和變量。

例如將數據處理相關的函數都存放在一個模塊裡,將數據分析相關的函數都存放在一個模塊裡,將數據可視化相關的函數都存放在一個模塊裡。這樣就可以在其他有需要的地方進行調用,在編寫程序的時候,經常需要引用其它模塊。

你可以將Excel菜單中的每個選項卡 看成是一個模塊,例如數據選項卡下就包含了數據獲取和轉換、連接、排序和篩選、數據工具等功能。只是它以圖形界面的方式供我們選擇使用。

三分鐘教你Python數據分析—數據導入,小白基礎入門必看

而Python中的模塊一般看不見摸不著,需要在使用的時候進行導入使用,所以對初學者來說不算太友好,這也是大家認為Python難學的原因之一。

另外Python中模塊的概念,在 Java 中稱之為包(package),而在 C\\C++中則稱之為庫(library),Java和C\\C++都是程序員常用的編程語言,所以有些程序員就會把Python 中的模塊混淆稱之為包和庫,你只要明白它們說的是一回事即可。

原來是這麼回事,那Pandas模塊又是什麼?

Pandas模塊是Python的一個數據分析模塊,它最初被用作金融數據分析工具而開發出來,所以Pandas為時間序列分析提供了很好的支持。為了提供高效操作大型數據集的工具,Pandas提出了一套類似Excel的標準數據應用框架,包含了類似Excel表格的數據框DataFrame,以及快速便捷地處理數據的函數和方法,讓數據分析整個過程變得快速、簡單。可以毫不誇張地說,Pandas是Python中進行數據分析的最好工具。

Pandas模塊怎麼使用呢?它在哪呢?

在安裝Anaconda的時候,都已經一起安裝好了,我們只需把它導入就可以使用了,主要有兩種使用方法:

第一種是使用import語句進行導入。

import 模塊名

這是模塊導入最常使用的方法,模塊導入後,就可以通過使用 模塊名.變量名調用模塊中的變量,使用 模塊名.函數名 調用模塊中的函數。

第二種是使用 from import 語句進行導入。

from 模塊名 import 函數名

這種情況就是明 確知道要導入哪個模塊哪個函數或變量的時候使用。使用這種導入的方式,在使用函 數或變量的時候,就不用在前面加上對應的模塊名了。

那我們是不是可以導入Pandas模塊了?

可以,不過不用那麼急,我們先來看我們要導入的數據data.csv,先使用Notepad++打開查看數據是什麼樣子的:

三分鐘教你Python數據分析—數據導入,小白基礎入門必看

這份數據是一份用戶數據,記錄了用戶的id,註冊日期reg_date,用戶的身份證號id_num,性別gender,生日birthday,年齡age六個字段數據,每個字段使用英文逗號分隔。

還有一個很重要的信息,就是這份數據採用UTF-8的編碼格式記錄數據。

UTF-8是互聯網上使用最廣的一種unicode的實現方式,為傳輸而設計的編碼,最大的特點是統一無國界,可以顯示全世界上所有文化的字符。

現在我們可以來導入數據了,打開spyder,輸入以下代碼


三分鐘教你Python數據分析—數據導入,小白基礎入門必看


我給代碼加上對應的註釋,使用#來添加註釋,這樣解析器就不會執行註釋所在的行的內容。你再看看。


三分鐘教你Python數據分析—數據導入,小白基礎入門必看


在變量瀏覽窗口中就可以看到剛導入的data變量了,雙擊打開data變量,就可以得到下面這張表。

三分鐘教你Python數據分析—數據導入,小白基礎入門必看

導入TXT與EXCEL數據文件

首先是導入TXT數據文件,使用的是Pandas模塊中的read_table函數,數據還是與昨天一樣,只是存為了TXT文件。有了昨天CSV數據文件的導入經驗,導入TXT數據文件就輕車熟路了,打開spyder,輸入以下代碼


三分鐘教你Python數據分析—數據導入,小白基礎入門必看


這個比導入CSV文件多了個參數SEP,是設置列分隔符的意思吧?

同樣我給代碼加上對應的註釋,使用#來添加註釋,這樣解析器就不會執行註釋所在的行的內容。


三分鐘教你Python數據分析—數據導入,小白基礎入門必看


在變量瀏覽窗口中就可以看到剛導入的data變量了,雙擊打開data變量,就可以得到下面這張表。

三分鐘教你Python數據分析—數據導入,小白基礎入門必看

接下來是導入EXCEL數據文件,使用的是Pandas模塊中的read_excel函數,輸入以下代碼


三分鐘教你Python數據分析—數據導入,小白基礎入門必看


在變量瀏覽窗口中就可以看到剛導入的data變量了,雙擊打開data變量,就可以得到下面這張表。

三分鐘教你Python數據分析—數據導入,小白基礎入門必看

你發現沒有,id、age這兩列都有不同顏色標識。

因為這兩列數據類型為整數型,你看打開的這個數據框最下面有一個 Background color選項被勾選上,這個功能相當於Excel條件格式中的色階功能,它僅對整數型、浮點型有效,對其他數據類型無效。

我們可以使用下列命令查看下每列的數據類型


三分鐘教你Python數據分析—數據導入,小白基礎入門必看


可以看到只有id、age是int64型,其他都是object類型


三分鐘教你Python數據分析—數據導入,小白基礎入門必看


今天就到這,下次我們繼續學習其他操作,回去要多多練習,多敲代碼。

最後多說一句,小編是一名python開發工程師,這裡有我自己整理了一套最新的python系統學習教程,包括從基礎的python腳本到web開發、爬蟲、數據分析、數據可視化、機器學習等。想要這些資料的可以關注小編,並在後臺私信小編:“01”即可領取。


分享到:


相關文章: