疫情期間自我提升指南:十大資源,為你鋪平數據科學家之路

疫情期間自我提升指南:十大資源,為你鋪平數據科學家之路

本文約2800字,建議閱讀7分鐘

本文為你帶來了十大資源,更為你安排好了學習順序,網課刷起來!
疫情期間自我提升指南:十大資源,為你鋪平數據科學家之路

疫情在家太無聊,網課自然是打發時間又能自我提升的不二之選。在眾多學科中,數據科學又可說是有趣又實用的典範了。

可是,光coursera上能找到的數據科學課程就要數以百計。我們要如何選擇合適的課程?又應該選擇怎樣的學習順序呢?

今天,小編就為你帶來了十大資源,更為你安排好了學習順序。

從小白起步級,到大師進階級,涵蓋十分廣泛。即便你已有了一定的數據科學基礎,也能找到合適的學習資源。

一起來看吧!

Python 3 編程專業課

和Python 2.7說再見!

首先,你需要一門編程語言。密歇根大學的這門專業課是有關學習如何使用Python,並創建自己的內容。

課程鏈接:

https://www.coursera.org/specializations/python-3-programming

你將會學習編程基礎,如變量、條件、循環;並逐步接觸一些中間素材,如關鍵字變量、列表理解、lambda表達式和類繼承。

藉助Python應用數據科學,先學習後理解

在充分理解機器學習之前,我們需要先體驗一番。

這門《藉助Python應用數據科學》(Applied Data Science with Python)介紹了許多你應當瞭解的現代機器學習方法。無需理解太多,你就可以獲得構建自己模型的工具。

課程鏈接:

https://www.coursera.org/specializations/data-science-python

這門進階的專業課程是面向具有相關基礎的學習者。學習者需要具有基本的python或其他語言編程背景,希望通過使用流行的python工具包(如:pandas、matplotlib、scikit-learn、nltk和networkx),應用統計、機器學習、信息可視化、文本分析和社交網絡分析技術,從而對他們手頭的數據能夠有所瞭解。

機器學習理論與基礎

學完上述課程,你就已經入門了。

恭喜!你學到了不少東西,也知道了如何去實現。

但是,你還不完全理解隱含在這些模型背後的數學原理。

你需要理解clf.fit背後的東西。是時候面對現實了。除非你瞭解模型背後的數學原理,否則沒人會拿你當回事。

你不理解它,你就不可能改進它。

因此,我想你重磅推薦吳恩達老師的《機器學習》。它包含了許多機器學習算法背後的數學原理。

課程鏈接:

https://www.coursera.org/learn/machine-learning

我認為這門課是你的“必修課程”,因為是這門課激勵我進入這個領域,而且吳恩達老師(Andrew Ng)是一位偉大的老師。另外,這也是我剛轉入數據科學領域自學的第一門課。

這門課程什麼都有:迴歸,分類,異常檢測,推薦系統,神經網絡等等,還有很多很棒的建議。

學習統計推斷

“事實是不變的,統計數據則是易變的。”——馬克.吐溫

《推斷統計導論》(Inferential Statistics Intro)由Mine Çetinkaya-Rundel教授,沒有比她這門課更簡要的了。

課程鏈接:

https://www.coursera.org/learn/inferential-statistics-intro

她是一位好老師,清晰簡潔地講解了統計推斷的基礎內容。當然了,這也是一門必修課程。

你將會學到假設檢驗、置信區間、以及數值數據和分類數據的統計推斷方法。

學習數據科學的SQL基礎知識

SQL是所有數據ETL流程的核心。

雖然我們覺得創建模型和提出不同的假設更有成就感,但也不可輕視數據轉換的作用。

而且,由於SQL在數據ETL流程和準備任務中無處不在,因此每個人都應該瞭解一點SQL,至少是有用的。

SQL也已成為使用Apache Spark等大數據工具的實際標準。加州大學戴維斯分校(UC Davis)的《SQL specialization》課程會講解有關SQL的基礎知識以及如何使用SQL進行分佈式計算。

課程鏈接:

https://www.coursera.org/specializations/learn-sql-basics-data-science

課程簡介:通過具有數據科學應用程序的四個難度遞增的SQL項目,你將學習諸如SQL基礎知識,數據整理,SQL分析,AB測試,使用Apache Spark進行分佈式計算等主題。

高級機器學習

在更大的舞臺上,填鴨式教育一無所用。

你可能不同意這一點,但到目前為止,我們所做的一切都是填鴨式學習。數據是結構化的,數學原理是簡單的。但之前的努力並沒有白費,它為我們的下一步發展奠定了基礎。由Kaggle機器學習的頂尖高手和歐洲核子研究組織(法語為Conseil Européenn pour la Recherche Nucléaire,通常簡稱為CERN)的科學家們共同開發的《高級機器學習 專項課程》(Advanced Machine Learning specialization),採用另一種學習方法,幫助你學習許多難懂的概念並瞭解機器學習的前世今生。

課程鏈接:

https://www.coursera.org/specializations/aml

課程簡介:該專項課程介紹了深度學習,強化學習,自然語言理解,計算機視覺和貝葉斯方法。Kaggle機器學習的頂尖高手和CERN的科學家們將分享他們在解決現實問題中所獲得的寶貴經驗,從而更好地幫助你從理論過渡到現實。

深度學習

深度學習是大勢所趨。

吳恩達老師帶著新課《深度學習 專項課程》(Deep Learning Specialization)回來了,乾貨滿滿,待君細品。

課程鏈接:

https://www.coursera.org/specializations/deep-learning

吳恩達老師擅長化繁為簡,能夠以簡潔易懂的方式來解釋晦澀複雜的概念。他的方法不同於網上的其他教程,對於理解基礎概念大有裨益,因此我希望它能夠逐漸流行開來。

課程簡介:你將學習深度學習的基礎知識,瞭解如何構建神經網絡,學習如何領導成功的機器學習項目。你還會學習卷積神經網絡(CNN)、循環神經網絡(RNN)、長短期記憶網絡(LSTM)、Adam優化算法、Dropout原理、批規範化(BN)、Xavier/He初始化等。你將要研究的案例包括醫療保健,自動駕駛,手語閱讀,音樂生成,和自然語言處理等領域。

Pytorch,讓Python火力全開!

我通常從不提倡學習一種工具,但是,Pytorch真香!瞭解Pytorch,就意味著你可以閱讀許多當今論文中的代碼部分,你說它香不香?對於深度學習的研究人員來說,Pytorch已經成為默認的編程語言,更何況它還是開源免費的呢。

你可以通過《利用Pytorch構建深度神經網絡》(Deep Neural Networks with Pytorch) 這門課程系統地學習Pytorch。

課程鏈接:

https://www.coursera.org/learn/deep-neural-networks-with-pytorch

課程簡介:該課程將從Pytorch的張量和自動微分包講起。其次,每個部分將涵蓋不同的模型,這些模型依賴於諸如線性迴歸、邏輯迴歸或softmax迴歸等基礎知識。然後是前饋深度神經網絡,包含不同的激活函數,歸一化和dropout層。接著將介紹卷積神經網絡和遷移學習。最後,還將介紹其他幾種深度學習方法。

AWS機器學習入門

構建出色的機器學習系統時需要考慮很多因素。但是通常而言,作為數據科學家,我們只需擔心項目的特定部分即可。

但是,我們是否曾經考慮過擁有模型後將如何部署模型?

我見過很多機器學習項目,但其中許多註定要失敗,因為它們從一開始就沒有一個固定的生產計劃。

擁有一個良好的平臺並瞭解該平臺如何部署機器學習應用程序,將對現實生產大有幫助。 這門《AWS機器學習入門》(Getting Started with AWS Machine Learning)課程就可以幫你實現這個想法。

課程鏈接:

https://www.coursera.org/learn/aws-machine-learning

本課程將教會你:

  • 如何使用帶有內置算法和Jupyter Notebook實例的Amazon SageMaker構建、訓練和部署模型;
  • 如何使用Amazon AI服務(如Amazon Comprehend,Amazon Rekognition,Amazon Translate等)構建智能應用程序。

數據結構和算法

算法。沒錯,你需要它們。

算法和數據結構是數據科學不可或缺的一部分。儘管我們大多數數據科學家在學習時都沒有學習正確的算法課程,但它們是必不可少的。

許多公司在聘用數據科學家的面試過程中都會詢問數據結構和算法。

數據結構與算法需要你付出相當多的時間與精力進行研究,因此切不可輕視,這畢竟是程序員的內功!

我發現學習算法的最佳資源之一是加州大學聖地亞哥分校的《數據結構與算法 專項課程》

課程鏈接:

https://www.coursera.org/specializations/data-structures-algorithms

課程簡介:你將學習解決各種計算問題的算法技術,並將以你選擇的編程語言實現大約100種算法編碼問題。沒有其他任何一門在線算法課程可以為你提供如此豐富的編程實踐,這些東西你可能會在下次面試中遇到。

學無止境

希望這些資源可以幫助大家在數據科學這條路上走得更遠!如果有推薦資源,也歡迎在評論區分享。

相關報道:

https://towardsdatascience.com/top-10-resources-to-become-a-data-scientist-in-2020-99a315194701

校對:龔力

—完—

關注清華-青島數據科學研究院官方微信公眾平臺“ THU數據派 ”及姊妹號“ 數據派THU ”獲取更多講座福利及優質內容。


分享到:


相關文章: