數據科學是時下非常火的一個名詞,使得數據科學家/Data Scientist被稱為21世紀頭號性感職業”,但什麼是數據科學呢?可能100個人有100種看法,因其本身的延生範圍極廣,較直觀的理解就是數據科學=數據+科學=從數據中獲取信息的科學,這裡面甚至可以包含統計學、機器學習、人工智能等等。
在現實場景中,數據科學可以解決實際業務問題,這些業務問題可以是風險控制,精準營銷,物流優化等等,在這個過程中最重要的就是我們需要把業務問題轉化成數學問題或者說是數據問題。
那通常這個數學問題會是一個優化問題,做過機器學習的同學可能會比較熟悉,優化問題會涉及到以下幾個方面:
1能夠使用的數據,包含自變量X和因變量Y,用於算法的訓練和驗證
2這個數學問題的表達式,方程式,是某個函數族的,如是logistics regression還是3層的CNN;
3考量這個函數好壞的標準和方法,這裡的好壞是要考慮得準確性和穩定性的,就是通常說的trade-off between bias and variance,一般會採用loss function和regulization function相結合,這也就是優化的目標函數;
4尋找最優函數的方法,即參數的最優化。
以上幾個方面可以抽象成3個維度的能力,數據能力,建模能力和計算能力。
數據能力:主要體現在數據維度上和樣本數量上,數據是資源也是壁壘,沒有數據就沒有數據科學了;
建模能力:體現在對現實問題進行數學抽象的能力,包含了函數的刻畫和優化目標的設定;
計算能力:則體現在最優化的這一過程中,怎樣快速尋找到最優的參數。舉個例子前段時間有個新聞,UC Berkley和UC Davis的科學家使用百萬美元設備基於LARS算法24分鐘完成ImageNet上AlexNet網絡訓練,如果使用我們的筆記本電腦是花再多的時間也沒有辦法完成這樣的訓練的。
拍拍信的數據科學:
拍拍信由資深行業專家組成的數據科學團隊致力於通過提升上述三方面能力開發出有競爭力的數據產品和解決方案。目前數據庫已累積海量多維度的數據,例如徵信數據、消費數據、運營商數據、社交數據等等。
擁有龐大數據庫後衍生出的一系列內容如:高效的數據存儲,合理的數據架構,覆蓋數據生命週期的數據質量監控,數據源到衍生字段,再到數據的業務調用和業務表現。都離不開數據科學的支持。
搭建完善且性能好、擴展性強和魯棒性高的大數據系統,硬件上,100+節點集群,同時我們在新建基於GPU的深度學習平臺。一套覆蓋了線下開發和線上部署、離線計算,實時計算,批處理和流式計算,自動化、智能化的數據流和工作流的架框。
建模和算法,可能是大家更為關注的問題。拍拍信一直是在針對不同的業務問題來找出合適的模型和方法,這裡面有幾個方面:
模型和算法能和好刻畫業務問題
模型和算法的量化性能好
實際部署的健壯性強
上線後對業務的幫助大
目前我們的技術棧覆蓋以下兩個方面:
基本算法棧: 包含聚類,分類,預測和異常檢測;
先進算法棧:包含集成學習、深度學習、對抗學習、遷移學習、增強學習和在線學習;
另外我們也在算法的落地,就是實際場景的工程落地做了很多嘗試,如線上和線下代碼一致性的部署框架等。
上述能力的最終體現就是我們的相關數據產品,以我們的風控產品為例,有以下的一些特點:
1.覆蓋用戶的消費信貸週期
貸前的身份驗證,反欺詐檢查,信用評分和給額
貸中的風險監控和預警
貸後的催收評分和信用評級更新
2.數據驅動
對高維度的數據進行提取來覆蓋C端用戶的各個方面的屬性,目前我們提取了2500+的用戶標籤身份屬性(如:身份屬性、履約能力、行為特質、消費偏好、社交影響等)
數據的穩定性和時效性保證,目前所有原始數據都是實時更新,絕大部分衍生標籤是T+1更新的
3.大數據技術驅動基於專家經驗和深度學習的特徵工程
基於專家經驗和深度學習的特徵工程
基於知識圖譜的特徵提取和關係網絡反欺詐
基於集成學習的多數據多模型融合
基於在線學習的算法自更新
基於遷移學習的場景自適應遷移
4.產品線豐富信用
信用標籤和評分
反欺詐標籤和評分
風控規則平臺
信貸模型評分
等
名詞解釋
丨最優化:
1.構造一個合適的目標函數,使得這個目標函數取到極值的解就是你所要求的;
2.找到一個能讓目標函數取到極值的解的方法。
丨魯棒:
Robust的音譯,也就是健壯、強壯、堅定、粗野的意思。魯棒性(robustness)就是系統的健壯性。
本期的分享就到這裡啦,以上說了很多,咱們下期見,歡迎大家聯繫探討。
感謝您對拍拍信的認可與支持
我們一直在路上
閱讀更多 拍拍信 的文章