今後一段時間暫且告別“枯燥的”純數學學習,開始新的學習征程。
今天開始,學學關於數據的知識。本數據系列文章的知識來源於:Vincent Granville著的Developing Analytic Talent Becoming a Data Scientist,中文譯作《數據天才·數據科學家修煉之道》,由吳博,張曉峰,季春霖譯,電子工業出版社出版。有興趣的可以自行購買翻閱。
體系結構大致如下
在第一章,主要談的是數據科學是什麼。在學某樣東西之前,我們是需要準確瞭解它是什麼。以此為開場白,也是因為現在許多人都在蹭“大數據”,“數據科學”的概念,因此產生了很多偽數據科學,如將傳統統計學和R編程算作數據科學,將python,MapReduce,R,Hadoop,nosql等具體技術算數據科學。
事實上,作者認為,數據科學家需要具備以下能力:
- 敏銳的商業頭腦
- 真正的大數據專業知識,如能在短時間(幾小時內)快速處理一個5000W行的數據集
- 認知數據的能力
- 對模型具有猜疑精神
- 瞭解大數據“詛咒”
- 有能力溝通並理解管理人員正在試圖解決哪些問題
- 能正確評估能到來的回報和效益提升
- 能快速識別一個簡單,健壯,可擴展的解決方案
- 能說服並推動管理人員轉到正確的方向上
- 真正熱愛數據分析
- 成功案例的實際應用經驗
- 數據架構知識
- 數據收集和清理技能
- 計算複雜度的基礎知識--如何開發健壯,高效,可擴展,可移植的架構
- 良好的算法知識
數據科學家應當在商業分析,統計學,計算機科學等領域是通才。需要基本是數學知識,包括但不限於:代數矩陣理論,微積分入門,概率統計學入門。從技術角度,應該知道的技能有:R,python,excel,sql,圖形可視化,FTP,UNIX基本命令,數據庫理論,分佈式系統,網絡爬蟲。
幾個相似職業崗位的差異對比:
數據科學家:DAD(發現,獲取,提煉)
數據工程師/數據架構師/數據庫管理員:ETL(提取,變換,載入)
統計學家:注重收集大量的數據進行線性迴歸分析
業務分析師:專注數據庫設計,評估業務項目支出和投資回報率及預算問題
數據科學會遇到的兩種基本問題:
- 內部數據科學問題,如損壞的數據
- 業務應用問題,如欺詐檢測
書中還列舉了13個真實情景,幫助我們瞭解數據科學能做什麼,在此只列出情景,不作詳述:
- 國家對烈酒銷售的壟斷結束後,酒後駕駛逮捕量減少
- 數據科學與直覺
- 數據故障將數據變成亂碼
- 異常空間的迴歸
- 分析與誘導在提升銷量上有何不同價值
- 關於隱藏數據
- 汽油中的鉛會導致高犯罪率,真的嗎?
- 波音787問題
- NLP的7個棘手句子
- 數據科學家決定著我們所吃的食品
- 用較好的相關性增加亞馬遜的銷售量
- 檢測Facebook上的假檔案或假喜歡數
- 餐廳的分析
To be continued...
閱讀更多 文話教育 的文章