學python做數據分析怎麼樣?

子供部屋


例如收集數據的方法是使用問卷,實驗軟件(例如,PsychoPy,OpenSesame)和觀察。

當問卷和實驗軟件使用數字應用程序時,我們當然也會以數字文件格式(例如,Excel電子表格和逗號分隔,CSV,文件)獲取數據。

如果數據集非常小,則可以使用Python和Pandas直接創建數據框:

然而當數據集很大時如果手動處理數據非常耗時且不推薦。 下面您將學習如何在Python和Pandas中閱讀Excel Spreadsheets和CSV文件。

使用Pandas read_excel讀取Excel文件,將數據集讀入Python的一種方法是使用read_excel方法,該方法有許多參數。

pd.read_excel(io, sheet_name=0, header=0)
  • io是包含數據的Excel文件。 它應該是類型字符串數據類型,可以是本地存儲的文件以及URL。

  • sheet_name可以是我們要加載的特定工作表的字符串,也可以是零索引工作表位置的整數。 如果我們指定None,則所有工作表都將讀入數據框。

  • header可以是整數或整數列表。 默認值為0,整數表示列名稱的行。 如果Excel文件中沒有列名,請添加0。

如果要了解其他參數,請參閱read_excel文檔。

pandas閱讀Excel示例:

這是一個關於如何使用Pandas read_excel的工作示例:

在上面的示例中,我們正在讀取Excel文件('conflictdata.xlsx')。 數據集只有一個工作表,但為了清楚起見我們添加了“conflictdata”工作表名稱作為參數。 也就是說在這種情況下,sheet_name不需要我們使用。

R用戶可能熟悉最後一行,以下是打印DataFrane的前X行:

您可能已經注意到,當我們閱讀上面的Excel文件時,我們沒有使用header參數。 如果我們將標題設置為None,我們將獲得數字作為列名。 不幸的是,這使得使用Pandas數據框有點煩人。

我們可以傳遞一個列名列表作為參數。 最後,由於示例xlsx文件包含列名,我們使用skiprows跳過第一行。 注意,可以使用跳過跳過多行。 只需添加一個列表,其中包含要跳過的行號。

這是另一個使用Python Pandas讀取Excel文件的示例:

我們還可以使用Pandas to_excel方法保存新的xlsx(或覆蓋舊的,如果你喜歡這樣做的話)。

  • excel_writer可以是字符串(您的文件名)或ExcelWriter對象。

  • sheet_name應該是包含工作表名稱的字符串。 默認為'Sheet1'。


  • index應該是布爾值(即,True或False)。 通常,我們不希望用數字編寫新列。 默認為True。

df.to_excel('newfilename.xlsx', sheet_name='NewColNames', index=False)

有許多方法可用於篩選數據。 一種簡單的方法是使用查詢, 此方法類似於R中的函數子集。現在我們來篩選出“piq”大於80:

  • df_piq = df.query('piq > 80')

  • df_piq.head(4)

  • df_males = df [df ['sex'] =='man']

下面顯示瞭如何使用多個條件篩選數據框。 在這種情況下,我們從性別為男性且iq大於80的df中選擇觀察值。請注意Pandas中的&符號“&”是首選的AND運算符。

  • df_male80 = df.query('iq> 80&sex ==“Male”')

也可以使用OR運算符。 在下面的示例中,我們基於年齡大於或等於40或年齡小於14的行來過濾DataFrame。此外我們還可以通過列'piq'和'viq'篩選條件。

  • df.query('age >= 40 | age < 14')[['piq', 'viq']].head()

以上就是簡單用pandas進行數據分析中讀取數據、篩選數據一環,你還可以用它還做很多數據操作,是一個很有用的工具包。


我會在這裡發佈所有與科技、科學有關的有趣文章,歡迎訂閱我的頭條號。偶爾也回答有趣的問題,有問題可隨時在評論區回覆和討論。


楊沐白


python做數據分析可以說有一定的優勢,python很多人學習就是因為其在大數據、人工智能方面的應用。

操作數據庫,支持關係型數據庫和非關係型數據

傳統的關係型數據庫Mysql應用比較廣泛,python對mysql的支持很友好,通過調用第三方庫mysqldb可以很好的訪問數據庫的數據。

對於非關係型數據庫,也就是我們常說的Nosql,連接起來也很方便,通過pymongo這個第三方庫,我們就可以訪問和操作mongodb。

所以對於Python來說,訪問數據庫甚至於其它文件都不是一件難事,相反很方便。

數據分析中的重要的數據可視化部分

我們在做數據分析的時候,經常要將數據分析後的結果,通過數據圖形展示出來。同時,在我們做分析的時候,通過圖形可以一步一步地逼近數據分析結果,在這方面Python有很豐富的庫支持,R語言流行的ggplot2庫在Python上也可以使用,同時特有seaborn庫在可視化方面也是相當的不錯,此庫結合了matplotlib庫相關的畫圖特性。比如下圖中的圖就是利用seaborn畫出來的,看起來特別舒服。

python在數據分析上的應用具有其一定的優勢,而且應用也比較廣泛,我們碰到的問題,可以利用第三方庫得麼完美的支持,這和Python語言的設計初衷有直接有的關係。


Bean蠶豆


數據分析是學習Python的主要就業方向之一,隨著大數據分析、數據挖掘等數據相關領域的持續火熱, 用Python做數據分析的工作相信也越來越多,這也是促使Python語言本身再次火熱的原因之一。

讓我們從下面幾個方面來看看為什麼Python適合做數據分析:

1, 語言特性

Python是一門開源的、功能強大的動態編程語言, 對於動態語言來說, 往往提供開發友好的編程方式。 Python有強大的社區支持、有成千上萬的成熟庫和框架的支持。這使得使用Python做開發非常便捷。

2, 由於數據分析的庫和框架的支持

正是由於Python語言的流行性,在細分的各種工作領域中的庫的層出不窮,在數據分析領域尤為如此。 不僅僅是性能良好的基礎的Numpy庫, Scipy庫, 還有支持統計分析的Pandas庫, 支持機器學習的Scikit-Learn庫以及支持數據可視化的matplotlib以及seaborn等等。每種庫和框架都足夠成熟適合現實生活中的數據分析工作要求。

另外,對於大數據領域中的流行框架如Spark, Tensorflow, PyTorch等, Python也是官方支持的主要接口語言。

3, 工具的支持

各種Python的IDE如PyCharm, Jupyter也對Python進行了良好的支持,使得數據分析的效率進一步提升。

4, 用Python作數據分析的資料豐富

用Python作數據分析、數據統計這幾年在國內才慢慢興起,其實在國外很早就開始了,因此這方面的書籍、Blog等資料也非常豐富。我這裡也收集到一些書籍(不多但是比較經典),有需要的可以私信我.


希望這個回答有所幫助,歡迎交流!!


樂之天空


可以啊,現在Python語言主要應用於爬蟲技術,對數據的抓取很精準,並且之所以Python會成為做數據分析的首選,也是因為有比較齊全的數據庫,利於抓取,很適合做數據分析。而且現在大數據技術和機器學習,都會用Python開發。


碼農視界


做數據分析是必須要學習python的,你要可以學會python很好就業的,現在市場這方面人才都不多,所以現在把python學好,未來發展前途還是非常好的。

可以關注微信公眾號【python教程】會不定期分享關於python的知識


分享到:


相關文章: