讀書筆記:數據天才·數據科學家修煉之道01

讀書筆記:數據天才·數據科學家修煉之道01

​今後一段時間暫且告別“枯燥的”純數學學習,開始新的學習征程。

今天開始,學學關於數據的知識。本數據系列文章的知識來源於:Vincent Granville著的Developing Analytic Talent Becoming a Data Scientist,中文譯作《數據天才·數據科學家修煉之道》,由吳博,張曉峰,季春霖譯,電子工業出版社出版。有興趣的可以自行購買翻閱。

體系結構大致如下

讀書筆記:數據天才·數據科學家修煉之道01

在第一章,主要談的是數據科學是什麼。在學某樣東西之前,我們是需要準確瞭解它是什麼。以此為開場白,也是因為現在許多人都在蹭“大數據”,“數據科學”的概念,因此產生了很多偽數據科學,如將傳統統計學和R編程算作數據科學,將python,MapReduce,R,Hadoop,nosql等具體技術算數據科學。

事實上,作者認為,數據科學家需要具備以下能力:

  • 敏銳的商業頭腦
  • 真正的大數據專業知識,如能在短時間(幾小時內)快速處理一個5000W行的數據集
  • 認知數據的能力
  • 對模型具有猜疑精神
  • 瞭解大數據“詛咒”
  • 有能力溝通並理解管理人員正在試圖解決哪些問題
  • 能正確評估能到來的回報和效益提升
  • 能快速識別一個簡單,健壯,可擴展的解決方案
  • 能說服並推動管理人員轉到正確的方向上
  • 真正熱愛數據分析
  • 成功案例的實際應用經驗
  • 數據架構知識
  • 數據收集和清理技能
  • 計算複雜度的基礎知識--如何開發健壯,高效,可擴展,可移植的架構
  • 良好的算法知識
讀書筆記:數據天才·數據科學家修煉之道01

數據科學家應當在商業分析,統計學,計算機科學等領域是通才。需要基本是數學知識,包括但不限於:代數矩陣理論,微積分入門,概率統計學入門。從技術角度,應該知道的技能有:R,python,excel,sql,圖形可視化,FTP,UNIX基本命令,數據庫理論,分佈式系統,網絡爬蟲。

幾個相似職業崗位的差異對比:

數據科學家:DAD(發現,獲取,提煉)

數據工程師/數據架構師/數據庫管理員:ETL(提取,變換,載入)

統計學家:注重收集大量的數據進行線性迴歸分析

業務分析師:專注數據庫設計,評估業務項目支出和投資回報率及預算問題

讀書筆記:數據天才·數據科學家修煉之道01

數據科學會遇到的兩種基本問題:

  1. 內部數據科學問題,如損壞的數據
  2. 業務應用問題,如欺詐檢測

書中還列舉了13個真實情景,幫助我們瞭解數據科學能做什麼,在此只列出情景,不作詳述:

  • 國家對烈酒銷售的壟斷結束後,酒後駕駛逮捕量減少
  • 數據科學與直覺
  • 數據故障將數據變成亂碼
  • 異常空間的迴歸
  • 分析與誘導在提升銷量上有何不同價值
  • 關於隱藏數據
  • 汽油中的鉛會導致高犯罪率,真的嗎?
  • 波音787問題
  • NLP的7個棘手句子
  • 數據科學家決定著我們所吃的食品
  • 用較好的相關性增加亞馬遜的銷售量
  • 檢測Facebook上的假檔案或假喜歡數
  • 餐廳的分析

To be continued...


分享到:


相關文章: