新手必知的數據分析名詞(建議收藏)


什麼是商業智能


BI:Business Intelegence,商業智能,基於數據倉庫,經過數據挖掘後,得到了商業價值的過程。例如利用數據預測用戶購物行為屬性商業智能


什麼是數據倉庫


DW:Data Warehouse,數據倉庫,數據庫的升級概念,一般量更龐大,將多個數據來源的數據進行彙總、整理而來


什麼是數據挖掘


DM:Data Mining,數據挖掘

數據挖掘流程:Knowledge Discovery in Database,也叫數據庫中的知識發現,簡稱KDD

KDD流程:輸入數據->數據預處理->數據挖掘->後處理->信息


  • 數據清洗:去除重複數據、干擾數據及填充缺失值
  • 數據集成:將多個數據源中的數據存放在一個統一的數據存儲中
  • 數據變換:將數據轉換成適合數據挖掘的形式,比如將數值東籬一個特定的0~1的區間


1. 數據挖掘的核心


  • 分類:通過訓練集得到一個分類模型,然後用這個模型可以對其他數據進行分類 分類是已知了類別,然後看樣本屬於哪個分類
  • 聚類:將數據自動聚類成幾個類別, 聚類是不知道有哪些類別,按照 樣本的屬性來進行聚類
  • 預測:通過當前和歷史數據預測未來趨勢,可以更好地幫助我們識別機遇和風險
  • 關聯分析:發現數據中的關聯規則,被廣泛應用於購物、事務數據分析中


2. 數據挖掘的基本流程


  • 商業理解:從商業的角度理解項目需求
  • 數據理解:嘗試收集部分數據,對數據進行探索
  • 數據準備:
    開始收集數據,並進行清洗、集成等操作
  • 模型建立:選擇和應用數據挖掘模型,並進行優化,以便得到更好的分類結果
  • 模型評估:對模型進行評價,確認模型是否實現了預定的商業目標
  • 上線發佈:把挖掘的知識轉換成用戶的使用形式



數據挖掘的數學基礎


  • 概率論與數據統計
  • 線性代數
  • 圖論
  • 最優化方法



數據挖掘的十大算法


1. 分類


  • C4.5:十大算法之首,決策樹算法,特點包括:1.構造過程中剪枝 2.處理連續屬性;3.處理不完整的數據
  • 樸素貝葉斯:基於概率論原理,計算未知物體出現的條件下,各個類別出現的概率,取概率最大的分類
  • SVM:超平面的分類模型
  • KNN:每個樣本的分類都可以用其最接近的K個鄰居的分類代表
  • Adaboost:構建分類器的提升算法,可以讓多個弱的分類器組成一個強的分類器
  • CART:決策樹算法,分類樹 + 迴歸樹


2. 聚類


  • K-Means:將物體分成K類,計算新點跟K箇中心點的距離,哪個距離近,則新點歸為哪一類
  • EM:最大期望算法,求參數的最大似然估計的一種方法


3. 關聯分析


Apriori:挖掘關聯規則的算法,通過挖掘頻繁項集揭示物品之間的關聯關係


4. 連接分析


PageRank:起源於論文影響力的計算方式,如果一篇文論被引入的次數越多,就代表這篇論文的影響力越強,Google將其用於計算網頁權重


什麼是數據可視化


數據可視化主要是藉助於圖形化手段,清晰有效地傳達與溝通信息,讓我們直觀瞭解數據分析的結果


數據可視化工具:


1. python庫


Matplotlib

Seaborn

Bokeh、Plotly、Pyecharts、Mapbox 和 Geoplotlib等


2. 商業智能軟件


Tableau

PowerBI


3. 可視化大屏


大屏作為一種視覺效果強、科技感強的技術,被企業老闆所青睞,可以很好地展示公司的數據化能力


4. 前端可視化組件


可視化組件都是基於 Web 渲染的技術的

Web 渲染技術:Canvas(位圖)、SVG (失量圖)和 WebGL(3D繪圖)



什麼是用戶畫像


簡單的說,用戶畫像就是標籤的彙總,用戶畫像是現實世界中的用戶的數學建模,將海量數據進行標籤化,來複以更精準的用戶畫像,用戶標籤能產生的業務價值


  • 在獲客上,找到優勢的宣傳渠道,通過個性化的宣傳手段
    吸引有潛在需求的用戶
  • 在粘客上,提升用戶的單價和消費頻次
  • 在留客上,降低流失率,顧客流失率降低 5%,公司利潤提升 25% ~ 85%


1. 用戶標籤4個緯度


  • 基礎信息:性別、年齡、地域、收入、學歷、職業等
  • 消費信息:消費習慣、購買意向、是否對促銷敏感
  • 行為分析:時間段、頻次、時長、訪問路徑
  • 內容分析:瀏覽的內容、停留時長、瀏覽次數,內容類型,如金融、娛樂、教育、體育、時尚、科技等


2. 數據處理的3個階段


  • 業務層:獲客預測、個性化推薦、用戶流失率、GMV趨勢預測
  • 算法層:用戶興趣、用戶活躍度、產品購買偏好、用戶關聯關係、用戶滿意度、渠道使用偏好、支付使用偏好、優惠券偏好
  • 數據層:用戶屬性、投訴次數、產品購買次數、渠道使用頻率、優惠券使用、訪問時長、支付渠道使用、瀏覽內容頻次


什麼是埋點


在需要的位置採集相應的信息,進行上報。比如用戶信息、設備信息、操作行為數據,埋點一般是在需要統計數據的地方植入統計代碼。


數據採集都有哪些方式


  • 開源數據源
  • 爬蟲抓取
  • 日誌採集
  • 傳感器



什麼是數據清洗


數據清洗是去除重複數據、干擾數據及填充缺失值。


數據清洗的4個關鍵點(完全合一):


  • 完整性:單條數據是否存在空值,統計的字段是否完善
  • 全面性:觀察某一列的全部數值,判斷列是否有問題,比如:數據定義、單位標識、數值本身。例如有的單位是克,有的是千克或磅
  • 合法性:數據的類型、內容、大小的合法性。例如存在非ASCII字符,性別未知,年齡超過150歲等。
  • 唯一性:數據是否存在重複記錄。因為數據通常來自不同渠道的彙總,重複的情況是常見的,行和列數據都需要是唯一的



什麼是數據集成


數據集成是將多個數據源合併存放在一個數據存儲中(如數據倉庫) 大數據項目中80%的工作都和數據集成有關。


  • Extract / 提取 :從datasource/txt/csv/Excel/等原始數據源中 Extract數據
  • Transform / 轉換 :將數據預處理,字段補全、類型檢查、去除重複數據等,根據預定的條件將數據統一起來
  • Load / 裝載 :將轉換完的數據存到數據倉庫中


1. 數據集成的兩種架構


  • ELT 過程為數據提取(Extract)——轉換(Transform)——加載(Load),在數據源抽取後首先進行轉換,然後將轉換的結果寫入目的地。
  • ETL 過程為數據提取(Extract)——加載(Load)——轉換(Transform),在數據抽取後將結果先寫入目的地,然後利用數據庫的聚合分析能力或者外部框架,如Spark來完成轉換的步驟。


2. ETL和ELT的區別


ETL和ELT主要是先清洗數據還是先入庫的區別。ETL一般使用主流框架用程序在提取的時候就將數據進行清洗,ELT則是將數據存到數據倉庫,再用sql進行數據清洗。


未來使用ELT作為數據集成架構的會越來越多,有以下好處:


  • 使用 ELT 方法,在提取完成之後,數據加載會立即開始。一方面更省時,另一方面 ELT 允許 BI 分析人員無限制地訪問整個原始數據,為分析師提供了更大的靈活性,使之能更好地支持業務。


  • 在 ELT 架構中,數據變換這個過程根據後續使用的情況,需要在 SQL 中進行,而不是在加載階段進行。這樣做的好處是你可以從數據源中提取數據,經過少量預處理後進行加載。這樣的架構更簡單,使分析人員更好地瞭解原始數據的變換過程。



什麼是數據變換


數據變換是數據準備的重要環節,通過數據平滑、數據聚集、數據概化和規範化

等方式將數據轉換成適用於數據挖掘的形式。


1. 數據平滑


去除數據中的噪聲,將連續數據離散化


2. 數據聚集


對數據進行彙總,例如Sum、Max、Mean等


3. 數據概化


將數據由較低的概念抽象成較高的概念,如北上廣深圳概化為中國。


4. 數據規範化


合屬性數據按比例縮放,將原來的數值映射到新的特定區域中。


  • min-max規範化:將原始數據變化到[0, 1]的空間中,公式為:新數值=(原數值-極小值) / (極大值-極小值),對應的有SciKit-Learn的preprocessing.MinMaxScaler函數


  • z-score規範化:可以用相同的標準比較不同規格的成績。公式為:新數值=(原數值-均值) / 標準差。對應的有SciKit-Learn的preprocessing.scale函數,求出每行每列的值減去了平均值,再除以方差的結果,使得數值都符合均值為0,方差為1的正態分佈


  • 小數定標規範:
    通過移動小數點的位置來進行規範化


5. 屬性構造


構造出新的屬性並添加到屬性集中。


什麼是方差、標準差


  • 方差和標準差是測算離散趨勢最重要、最常用的指標
  • 標準差是方差的平方根
  • 一個較大的標準差,代表大部分數值和其平均值之間差異較大;一個較小的標準差,代表這些數值較接近平均值。
  • 由於方差是數據的平方,與檢測值本身相差太大,人們難以直觀的衡量,所以常用方差開根號換算回來這就是我們要說的標準差。


End.


分享到:


相關文章: