如何快速全面建立自己的大數據知識體系？

2018-08-15 13:02:05 程序人生i

頭條系統每天關注上限100人

1:為了防止關注人數上限，私信收不到，2:私信髮網盤鏈接失效，)3:為了加人氣，需要以下，Python，大數據,架構等資料的朋友！免費送給前100評論留言者。私信小編，小編微信，發給你網盤鏈接，手慢無！

很多人都看過不同類型的書，也接觸過很多有關大數據方面的文章，但都是很零散不成系統，對自己也沒有起到多大的作用，所以作者第一時間，帶大家從整體體系思路上，瞭解大數據產品設計架構和技術策略。

大數據產品，從系統性和體系思路上來做，主要分為五步：

針對前端不同渠道進行數據埋點，然後根據不同渠道的採集多維數據，也就是做大數據的第一步，沒有全量數據，何談大數據分析；
第二步，基於採集回來的多維度數據，採用ETL對其各類數據進行結構化處理及加載；
然後第三步，對於ETL處理後的標準化結構數據，建立數據存儲管理子系統，歸集到底層數據倉庫，這一步很關鍵，基於數據倉庫，對其內部數據分解成基礎的同類數據集市；
然後基於歸集分解的不同數據集市，利用各類R函數包對其數據集進行數據建模和各類算法設計，裡面算法是需要自己設計，個別算法可以用R函數，這個過程產品和運營參與最多；這一步做好了，也是很多公司用戶畫像系統的底層。
最後根據建立的各類數據模型及算法，結合前端不同渠道不同業務特徵，根據渠道觸點自動匹配後端模型自動展現用戶個性化產品和服務。

建立系統性數據採集指標體系

建立數據採集分析指標體系是形成營銷數據集市的基礎，也是營銷數據集市覆蓋用戶行為數據廣度和深度的前提，數據採集分析體系要包含用戶全活動行為觸點數據，用戶結構化相關數據及非結構化相關數據，根據數據分析指標體系才能歸類彙總形成篩選用戶條件的屬性和屬性值，也是發現新的營銷事件的基礎。

構建營銷數據指標分析模型，完善升級數據指標採集，依託用戶全流程行為觸點，建立用戶行為消費特徵和個體屬性，從用戶行為分析、商業經營數據分析、營銷數據分析三個維度，形成用戶行為特徵分析模型。用戶維度數據指標是不同維度分析要素與用戶全生命週期軌跡各觸點的二維交叉得出。

目前做大數據平臺的公司，大多數採集的數據指標和輸出的可視化報表，都存在幾個關鍵問題：

採集的數據都是以渠道、日期、地區統計，無法定位到具體每個用戶；

計算統計出的數據都是規模數據，針對規模數據進行挖掘分析，無法支持；
數據無法支撐系統做用戶獲客、留存、營銷推送使用。

所以，要使系統採集的數據指標能夠支持平臺前端的個性化行為分析，必須圍繞用戶為主線來進行畫像設計，在初期可視化報表成果基礎上，將統計出來的不同規模數據，細分定位到每個用戶，使每個數據都有一個用戶歸屬。

將分散無序的統計數據，在依據用戶來銜接起來，在現有產品界面上，每個統計數據都增加一個標籤，點擊標籤，可以展示對應每個用戶的行為數據，同時可以鏈接到其他統計數據頁面。

由此可以推導出，以用戶為主線來建立數據採集指標維度：用戶身份信息、用戶社會生活信息、用戶資產信息、用戶行為偏好信息、用戶購物偏好、用戶價值、用戶反饋、用戶忠誠度等多個維度，依據建立的採集數據維度，可以細分到數據指標或數據屬性項。

① 用戶身份信息維度

性別，年齡，星座，居住城市，活躍區域，證件信息，學歷，收入，健康等。

② 用戶社會生活信息維度

行業，職業，是否有孩子，孩子年齡，車輛，住房性質，通信情況，流量使用情況……

③ 用戶行為偏好信息

是否有網購行為，風險敏感度，價格敏感度，品牌敏感度，收益敏感度，產品偏好，渠道偏好……

④ 用戶購物偏好信息

品類偏好，產品偏好，購物頻次，瀏覽偏好，營銷廣告喜好，購物時間偏好，單次購物最高金額……

⑤ 用戶反饋信息維度

用戶參與的活動，參與的討論，收藏的產品，購買過的商品，推薦過的產品，評論過的產品……

基於採集回來的多維度數據，採用ETL對其各類數據進行結構化處理及加載

數據補缺：對空數據、缺失數據進行數據補缺操作，無法處理的做標記
數據替換：對無效數據進行數據的替換
格式規範化：將源數據抽取的數據格式轉換成為便於進入倉庫處理的目標數據格式
主外鍵約束：通過建立主外鍵約束，對非法數據進行數據替換或導出到錯誤文件重新處理
數據合併：多用表關聯實現（每個字段加索引，保證關聯查詢的效率）
數據拆分：按一定規則進行數據拆分
行列互換、排序/修改序號、去除重複記錄

數據處理層由 Hadoop集群組成 , Hadoop集群從數據採集源讀取業務數據，通過並行計算完成業務數據的處理邏輯，將數據篩選歸併形成目標數據。

數據建模、用戶畫像及特徵算法

提取與營銷相關的客戶、產品、服務數據，採用聚類分析和關聯分析方法搭建數據模型，通過用戶規則屬性配置、規則模板配置、用戶畫像打標籤，形成用戶數據規則集，利用規則引擎實現營銷推送和條件觸發的實時營銷推送，同步到前端渠道交互平臺來執行營銷規則，並將營銷執行效果信息實時返回到大數據系統。

根據前端用戶不同個性化行為，自動匹配規則並觸發推送內容

根據用戶全流程活動行為軌跡，分析用戶與線上渠道與線下渠道接觸的所有行為觸點，對營銷用戶打標籤，形成用戶行為畫像，基於用戶畫像提煉彙總營銷篩選規則屬性及屬性值，最終形成細分用戶群體的條件。每個用戶屬性對應多個不同屬性值，屬性值可根據不同活動個性化進行配置，支持用戶黑白名單的管理功能。

可以預先配置好基於不同用戶身份特性的活動規則和模型，當前端用戶來觸發配置好的營銷事件，數據系統根據匹配度最高的原則來實時自動推送營銷規則，並通過實時推送功能來配置推送的活動內容、優惠信息和產品信息等，同時彙總前端反饋回的效果數據，對推送規則和內容進行優化調整。

大數據系統結合客戶營銷系統在現有用戶畫像、用戶屬性打標籤、客戶和營銷規則配置推送、同類型用戶特性歸集分庫模型基礎上，未來將逐步擴展機器深度學習功能，通過系統自動蒐集分析前端用戶實時變化數據，依據建設的機器深度學習函數模型，自動計算匹配用戶需求的函數參數和對應規則，營銷系統根據計算出的規則模型，實時自動推送高度匹配的營銷活動和內容信息。

機器自學習模型算法是未來大數據系統深度學習的核心，通過系統大量採樣訓練，多次數據驗證和參數調整，才能最終確定相對精準的函數因子和參數值，從而可以根據前端用戶產生的實時行為數據，系統可自動計算對應的營銷規則和推薦模型。

大數據系統在深度自學習外，未來將通過逐步開放合作理念，對接外部第三方平臺，擴展客戶數據範圍和行為觸點，儘可能覆蓋用戶線上線下全生命週期行為軌跡，掌握用戶各行為觸點數據，擴大客戶數據集市和事件庫，才能深層次挖掘客戶全方位需求，結合機器自學習功能，從根本上提升產品銷售能力和客戶全方位體驗感知。

1:為防止私信髮網盤鏈接失效，需要資料的朋友，評論留言，私信小編回覆！覺得好的轉發幫你宣傳，需要什麼免費領什麼就好！

分享到:

閱讀更多 程序人生i 的文章

關鍵字: 市場營銷數據算法設計

「大數據」（一百四十八）常用算法及數據結構之Stacks

「大數據」（一百三十六）常見算法及數據結構之Bitmap樹

大數據：瞭解Hadoop生態中Hive和HBase兄弟倆的區別

「大數據」（一百二十七）Python基礎之字符串：字符串方法

「大數據」（一百二十五）Python基礎之元組：tuple函數

「大數據」（一百二十三）Python基礎之列表：列表方法

「大數據」（一百二十一）Python基礎之序列：成員資格

「大數據」（一百二十）Python基礎之序列：乘法

「大數據」（一百一十九）Python基礎之序列：序列相加

「大數據」（一百一十七）Python基礎之字符串

「大數據」（一百一十六）Python基礎之註釋

大數據，Hadoop生態詳解

「大數據」（一百一十五）Python基礎之常用魔法函數

「大數據」（一百一十四）Python基礎知識之函數

「大數據」（一百一十三）Python基礎知識之獲取用戶輸入

「大數據」（一百一十二）Python基礎之數字和表達式

「大數據」（一百零一）常用分區工具

「大數據」（一百）磁盤分區類型及各自作用

「大數據」（九十七）Scala之文件操作

「大數據」（九十二）Scala之輔助構造器

「大數據」（八十八）Scala之數組

「大數據」（八十七）Scala之控制器和函數

「大數據」（八十六）Scala基礎

「大數據」（八十五）Spark之MLlib體驗

「大數據」（八十三）Spark之Streaming實時流

「大數據」（八十二）Spark之SparkSQL應用案例

「大數據」（八十一）Spark之SparkSQL運行架構

03.08 「大數據」（八十一）Spark之SparkSQL運行架構

「大數據」（八十）Spark之Shuffle機制

「大數據」（七十九）Spark之Lineage機制

「大數據」（七十八）Spark之通信模塊

03.03 「大數據」（七十六）Spark之工作機制

02.27 大數據：瞭解Hive和HBase的區別

02.26 「大數據」（七十）Spark之生態系統

大數據 Hadoop（中）筆記大全收藏加關注

大數據 Linux筆記大全

大數據：Yarn應用程序提交流程

大數據、Hadoop核心框架和MapReduce原理

大數據：清洗流程以及入門實例

大數據：數據清洗的定義以及數據清洗的方法

大數據、雲計算系統頂級架構師課程學習路線圖

大數據:Hbase的知識大全都在這裡

大數據：基於zookeeper協調的分布式日誌系統Kafka的文件存儲機制

大數據、機器學習和深度學習類命令行工具

大數據，Java丶Python丶Web前端等300G的學習資料無償分享！

大數據——MapReduce

大數據-hadoop生態系統及版本演化