各行各業的數據挖掘與數據分析技術是否相通?

欣竹_木小木幸福麼麼噠


  您是否想更好地瞭解傳統數據與大數據之間的區別,在哪裡可以找到數據以及可以使用哪些技術來處理數據?

  這些是處理數據時必須採取的第一步,因此這是一個不錯的起點,特別是如果您正在考慮從事數據科學職業!

  “數據”是一個廣義術語,可以指“原始事實”,“處理後的數據”或“信息”。為了確保我們在同一頁面上,讓我們在進入細節之前將它們分開。

  我們收集原始數據,然後進行處理以獲得有意義的信息。

  好吧,將它們分開很容易!

  現在,讓我們進入細節!

  原始數據(也稱為“ 原始 事實”或“ 原始 數據”)是您已累積並存儲在服務器上但未被觸及的數據。這意味著您無法立即對其進行分析。我們將原始數據的收集稱為“數據收集”,這是我們要做的第一件事。

  什麼是原始數據?

  我們可以將數據視為傳統數據或大數據。如果您不熟悉此想法,則可以想象包含分類和數字數據的表格形式的傳統數據。該數據被結構化並存儲在可以從一臺計算機進行管理的數據庫中。收集傳統數據的一種方法是對人進行調查。要求他們以1到10的等級來評估他們對產品或體驗的滿意程度。

  傳統數據是大多數人習慣的數據。例如,“訂單管理”可幫助您跟蹤銷售,購買,電子商務和工作訂單。

  但是,大數據則是另外一回事了。

  顧名思義,“大數據”是為超大數據保留的術語。

  您還會經常看到它以字母“ V”為特徵。如“大數據的3V ”中所述。有時我們可以擁有5、7甚至11個“ V”的大數據。它們可能包括– 您對大數據的願景,大數據的價值,您使用的可視化工具或大數據一致性中的可變性。等等…

  但是,以下是您必須記住的最重要的標準:

  體積

  大數據需要大量的存儲空間,通常在許多計算機之間分佈。其大小以TB,PB甚至EB為單位

  品種

  在這裡,我們不僅在談論數字和文字。大數據通常意味著處理圖像,音頻文件,移動數據等。

  速度

  在處理大數據時,目標是儘可能快地從中提取模式。我們在哪裡遇到大數據?

  答案是:在越來越多的行業和公司中。這是一些著名的例子。

  作為最大的在線社區之一,“ Facebook”會跟蹤其用戶的姓名,個人數據,照片,視頻,錄製的消息等。這意味著他們的數據種類繁多。全世界有20億用戶,其服務器上存儲的數據量巨大。

  讓我們以“金融交易數據”為例。

  當我們每5秒記錄一次股價時會發生什麼?還是每一秒鐘?我們得到了一個龐大的數據集,需要大量內存,磁盤空間和各種技術來從中提取有意義的信息。

  傳統數據和大數據都將為您提高客戶滿意度奠定堅實的基礎。但是這些數據會有問題,因此在進行其他任何操作之前,您都必須對其進行處理。

  如何處理原始數據?

  讓我們將原始數據變成美麗的東西!

  在收集到足夠的原始 數據之後,要做的第一件事就是我們所謂的“數據預處理 ”。這是一組操作,會將原始數據轉換為更易理解且對進一步處理有用的格式。

  我想這一步會擠在原始 數據和處理之間!也許我們應該在這裡添加一個部分...

  數據預處理

  那麼,“數據預處理”的目的是什麼?

  它試圖解決數據收集中可能出現的問題。

  例如,在您收集的某些客戶數據中,您可能有一個註冊年齡為932歲或“英國”為名字的人。在進行任何分析之前,您需要將此數據標記為無效或更正。這就是數據預處理的全部內容!

  讓我們研究一下在預處理傳統和大原始數據時應用的技術嗎?

  類標籤

  這涉及將數據點標記為正確的數據類型,換句話說,按類別排列數據。

  我們將傳統數據分為兩類:

  一類是“數字” –如果您要存儲每天售出的商品數量,那麼您就在跟蹤數值。這些是您可以操縱的數字。例如,您可以計算出每天或每月銷售的平均商品數量。

  另一個標籤是“分類的” –在這裡您正在處理數學無法處理的信息。例如,一個人的職業。請記住,數據點仍然可以是數字,而不是數字。他們的出生日期是一個數字,您不能直接操縱它來給您更多的信息。

  考慮基本的客戶數據。*(使用的數據集來自我們的 SQL課程)

  我們將使用包含有關客戶的文本信息的此表來給出數字變量和分類變量之間差異的清晰示例。

  注意第一列,它顯示了分配給不同客戶的ID。您無法操縱這些數字。“平均” ID不會給您任何有用的信息。這意味著,即使它們是數字,它們也沒有數值,並且是分類數據。

  現在,專注於最後一列。這顯示了客戶提出投訴的次數。您可以操縱這些數字。將它們加在一起以給出總數的投訴是有用的信息,因此,它們是數字數據。

  我們可以查看的另一個示例是每日曆史股價數據。

  *這是我們在課程Python課程中使用的內容。

  您在此處看到的數據集中,有一列包含觀察日期,被視為分類數據。還有一列包含股票價格的數字數據。

  當您使用大數據時,事情會變得更加複雜。除了“數字”和“分類”數據之外,您還有更多的選擇,例如:

  文字數據

  數字圖像數據

  數字視頻數據

  和數字音頻數據

  數據清理

  也稱為“ 數據清理” 或“ 數據清理”。

  數據清理的目的是處理不一致的數據。這可以有多種形式。假設您收集了包含美國各州的數據集,並且四分之一的名稱拼寫錯誤。在這種情況下,您必須執行某些技術來糾正這些錯誤。您必須清除數據;線索就是名字!

  大數據具有更多數據類型,並且它們具有更廣泛的數據清理方法。有一些技術可以驗證數字圖像是否已準備好進行處理。並且存在一些特定方法來確保文件的音頻 質量足以繼續進行。

  缺失值

  “ 缺失的 價值觀”是您必須處理的其他事情。並非每個客戶都會為您提供所需的所有數據。經常會發生的是,客戶會給您他的名字和職業,而不是他的年齡。在這種情況下您能做什麼?

  您是否應該忽略客戶的整個記錄?還是您可以輸入其餘客戶的平均年齡?

  無論哪種最佳解決方案,都必須先清理數據並處理缺失值,然後才能進一步處理數據。

  處理傳統數據的技術

  讓我們進入處理傳統數據的兩種常用技術。

  平衡

  想象一下,您已經編制了一份調查表,以收集有關男女購物習慣的數據。假設您想確定誰在週末花了更多錢。但是,當您完成數據收集後,您會發現80%的受訪者是女性,而只有20%是男性。

  在這種情況下,您發現的趨勢將更趨向於女性。解決此問題的最佳方法是應用平衡技術。例如,從每個組中抽取相等數量的受訪者,則該比率為50/50。

  數據改組

  從數據集中對觀察結果進行混洗就像對一副紙牌進行混洗一樣。這將確保您的數據集不會出現由於有問題的數據收集而導致的有害模式。數據改組是一種改善預測性能並有助於避免產生誤導性結果的技術。

  但是如何避免產生錯覺呢?

  好吧,這是一個詳細的過程,但概括地說,混洗是一種使數據隨機化的方法。如果我從數據集中獲取前100個觀察值,則不是隨機樣本。最高的觀察值將首先被提取。如果我對數據進行混洗,那麼可以肯定的是,當我連續輸入100個條目時,它們將是隨機的(並且很可能具有代表性)。

  處理大數據的技術

  讓我們看一下處理大數據的一些特定於案例的技術。

  文本數據挖掘

  想想以數字格式存儲的大量文本。嗯,正在進行許多旨在從數字資源中提取特定文本信息的科學項目。例如,您可能有一個數據庫,該數據庫存儲了來自學術論文的有關“營銷支出”(您的研究主要主題)的信息。大數據分析技術有哪些https://www.aaa-cg.com.cn/data/2272.html如果源的數量和數據庫中存儲的文本量足夠少,則可以輕鬆找到所需的信息。通常,儘管數據巨大。它可能包含來自學術論文,博客文章,在線平臺,私有excel文件等的信息。

  這意味著您將需要從許多來源中提取“營銷支出”信息。換句話說,就是“大數據”。

  這不是一件容易的事,這導致學者和從業人員開發出執行“文本數據挖掘”的方法。

  數據屏蔽

  如果您想維持可靠的業務或政府活動,則必須保留機密信息。在線共享個人詳細信息時,您必須對信息應用一些“數據屏蔽”技術,以便您可以在不損害參與者隱私的情況下進行分析。

  像數據改組一樣,“數據屏蔽”可能很複雜。它用隨機和假數據隱藏原始數據,並允許您進行分析並將所有機密信息保存在安全的地方。將數據屏蔽應用於大數據的一個示例是通過“機密性保留數據挖掘”技術。

  完成數據處理後,您將獲得所需的寶貴和有意義的信息。我希望我們對傳統數據與大數據之間的差異以及我們如何處理它們有所瞭解。

https://www.toutiao.com/i6820650243210609166/


52sissi


人們不時地會混淆大數據分析技術和數據挖掘的關係,把一些數據挖掘的成果直接當成大數據的成果。雖然大數據分析的成果確實和數據挖掘一樣,都需要靠算法驅動。但是二者也有明顯的不同。具體如下圖所示。

從概念上可以認為,大數據分析是數據挖掘的一個子集。在通常的概念下,他們之間是有差別的,但是嚴格意義下,大數據的所有成果都可以納入數據挖掘的成果範疇。

有時候,人們把數據挖掘等同於大數據分析,而又把大數據的一些理想情況,如高效度、高速等移加到數據挖掘的實踐中去,造成了一些認知上的錯誤。

涉及大數據的問題,目前更多的是工程方面的,重點在於存儲和計算力兩個方面;而數據挖掘的問題,很多仍在探索階段,不成熟,精度方面也不能保證。因此,用大數據的方法,並不能直接解決數據挖掘存在的困難。不是所有的學術問題,數據量大了都能解決。

大數據技術首要的是提供存儲和計算能力,其次是洞察數據中隱含的意義。前者依賴於硬件設備的升級,後者依賴於數據挖掘算法的不斷優化創新。


西線學院


數據挖掘與分析有很重要的三個環節,合理的假設,合適的方法,足夠的數據。先說足夠的數據,數據不夠,無法支撐場景,其他都是白搭。其次是方法,這個是最通用的東西,根據相似場景以及目標,可以複用相似的方法,而且合適的方法與更合適的方法之間往往差距沒那麼大。最最重要的就是合理的假設,這個就需要了解行業知識,假設結果與哪些特徵相關。特徵的數量,相關性與準確性往往決定了最終的效果。所以說,技術是想通的,但是想做好一定要了解行業與場景


分享到:


相關文章: