掌握了這些數據專業術語,也太太太太太實用了!

如果作為一個公司的財務,向公司老闆彙報報銷情況,在去年裡消費中 25% 用於員工獎勵禮品,35% 用於出差報銷,20% 用於團建項目,其他的用於雜物,這就是描述性的分析。

預測分析(Predictive Analytics)

仍然是公司報銷舉例,如果你分析了過去3年的報銷記錄,發現當中有一定的一致性,那麼你可以較有把握地預測,明年的情況將與過去幾年類似。值得注意的是,這並不是“預測未來”,而是“預測事情發生的可能性”。在大數據預測分析中,數據科學家會使用數據挖掘,機器學習和高級統計過程等先進技術,進行天氣,經濟等方面的預測。

雲計算(Cloud computing)

雲計算已經變得無所不在,所以在這裡僅處於完整性的考慮將其歸納在內。它本質上是在遠程服務器上託管和運行的軟件及數據,並可從互聯網的任何地方進行訪問。

集群計算(Cluster computing)

這是一個使用多個服務器集合資源的“集群”的計算術語。要想更技術性的話,就會涉及到節點,集群管理層,負載平衡和並行處理等概念。

暗數據(Dark Data)

基本上指的是,由企業收集和處理的,但並不用於任何意義性目的的數據,因此它是“暗”的,可能永遠不會被分析。它可以是社交網絡反饋,呼叫中心日誌,會議筆記等等。有很多人估計,所有企業數據中的 60-90% 可能是“暗數據”,但不確定是真假。

數據挖掘(Data mining)

數據挖掘是通過使用複雜的模式識別技術,從而找到有意義的模式,並得出大量數據的見解。這與我們之前討論的“數據分析”術語密切相關,因為你將通過挖掘數據進行分析。為了獲得有意義的模式,數據挖掘者使用統計,機器學習算法和人工智能。

內存計算(In-memory computing)

一般來說,任何可以在不訪問 I / O 的情況下完成的計算都是很快的。內存計算是一種將工作數據集完全放在集群的集體內存中,避免將中間計算寫入磁盤的技術。Apache Spark 是一個內存計算系統,它在速度超過 I / O 綁定系統(如 Hadoop 的MapReduce)方面擁有巨大的優勢。

流處理(Stream processing)

流處理旨在對有“連續”要求的實時和流數據進行處理。結合流分析,即在流內不間斷地計算數學或統計分析的能力。流處理解決方案旨在對高流量進行實時處理。

R

R 是一種編程語言,在統計計算方面很出色。如果你不知道 R,你就稱不上是數據科學家。R 是數據科學中最受歡迎的語言之一。

機器學習(Machine learning)

機器學習是指通過提供的數據,使系統能夠學習,調整和改進。通過預測和統計算法,他們不斷學習“正確”的行為和洞察力,隨著更多的數據流通過該系統,得以不斷地改進。

今天的分享到這裡結束啦,喜歡請點贊,有想要和魚君交流, 隨時來撩


分享到:


相關文章: