一條流向數據是怎麼一步步“洗白”的

總是以亂糟糟面孔出現的流向數據是怎麼被逐一“洗白”,變成最終

可拆分、可分析的銷售結果數據的呢?

常規流向數據處理

Step 1

所有通過DDI或手工採集到的原始數據通過基本項核查後,進入格式化整理階段。格式化整理主要是根據既定規則並結合各家經銷商交接結果預先在綜合作業平臺中配置,由系統自動完成。執行過程中如遇不能正常格式化的問題系統將自動預警,由人工確認。

Step 2

數據格式標準化後,將進入數據信息標準化階段。主要是完成產品、下游客戶的匹配清洗以及產品單位轉換,未能通過自動清洗的內容將轉為人工處理,並由系統記錄清洗依據及清洗結果。

匹配清洗過程中,使用

分佈式的大數據架構平臺,可以高速完成內外部數據庫的讀寫以及流向大數據量的併發處理需求。搭載機器學習模型的分詞處理技術有效幫助提升匹配清洗效率,顯著減少人工匹配工作量。

Step 3

所有的清洗結果由系統自動進行質量核查,主要針對名稱過簡、地理信息錯誤、屬性錯誤、信息不完整等問題通過合理方法論進行校驗,疑似清洗問題將由核查人員重新確認處理。人工匹配清洗中,作業人員與核查人員分開,更能客觀有效識別問題。

Step 4

原始數據的匹配清洗完成後,系統將自動更新發生變化(例如新增)的主數據信息及映射關係等相關邏輯。

Step 5

生成初版流向數據。

特殊流向數據處理

特殊數據處理是對原始數據清洗後的二次處理,歷史數據調整及流向剝離是數據處理過程中常用到的處理方法。

特殊流向處理的人工操作極易產生錯誤,通過系統自動實現,配以集成在作業平臺中的高效、全面的質控體系,例如剝離處理過程中,校驗是否由一條流向生成兩條流向、上下游是否正常匹配等項目,可大幅減少錯誤發生。


分享到:


相關文章: