拍拍信Data Scientist丨淺談數據科學在實踐中的應用

2017-12-08 14:51:10 拍拍信

數據科學是時下非常火的一個名詞，使得數據科學家/Data Scientist被稱為21世紀頭號性感職業”，但什麼是數據科學呢？可能100個人有100種看法，因其本身的延生範圍極廣，較直觀的理解就是數據科學=數據+科學=從數據中獲取信息的科學，這裡面甚至可以包含統計學、機器學習、人工智能等等。

在現實場景中，數據科學可以解決實際業務問題，這些業務問題可以是風險控制，精準營銷，物流優化等等，在這個過程中最重要的就是我們需要把業務問題轉化成數學問題或者說是數據問題。

拍拍信Data Scientist丨淺談數據科學在實踐中的應用

那通常這個數學問題會是一個優化問題，做過機器學習的同學可能會比較熟悉，優化問題會涉及到以下幾個方面：

1能夠使用的數據，包含自變量X和因變量Y，用於算法的訓練和驗證

2這個數學問題的表達式，方程式，是某個函數族的，如是logistics regression還是3層的CNN；

3考量這個函數好壞的標準和方法，這裡的好壞是要考慮得準確性和穩定性的，就是通常說的trade-off between bias and variance，一般會採用loss function和regulization function相結合，這也就是優化的目標函數；

4尋找最優函數的方法，即參數的最優化。

以上幾個方面可以抽象成3個維度的能力，數據能力，建模能力和計算能力。

數據能力：主要體現在數據維度上和樣本數量上，數據是資源也是壁壘，沒有數據就沒有數據科學了；

建模能力：體現在對現實問題進行數學抽象的能力，包含了函數的刻畫和優化目標的設定；

計算能力：則體現在最優化的這一過程中，怎樣快速尋找到最優的參數。舉個例子前段時間有個新聞，UC Berkley和UC Davis的科學家使用百萬美元設備基於LARS算法24分鐘完成ImageNet上AlexNet網絡訓練，如果使用我們的筆記本電腦是花再多的時間也沒有辦法完成這樣的訓練的。

拍拍信的數據科學：

拍拍信由資深行業專家組成的數據科學團隊致力於通過提升上述三方面能力開發出有競爭力的數據產品和解決方案。目前數據庫已累積海量多維度的數據，例如徵信數據、消費數據、運營商數據、社交數據等等。

拍拍信Data Scientist丨淺談數據科學在實踐中的應用

擁有龐大數據庫後衍生出的一系列內容如：高效的數據存儲，合理的數據架構，覆蓋數據生命週期的數據質量監控，數據源到衍生字段，再到數據的業務調用和業務表現。都離不開數據科學的支持。

搭建完善且性能好、擴展性強和魯棒性高的大數據系統，硬件上，100+節點集群，同時我們在新建基於GPU的深度學習平臺。一套覆蓋了線下開發和線上部署、離線計算，實時計算，批處理和流式計算，自動化、智能化的數據流和工作流的架框。

建模和算法，可能是大家更為關注的問題。拍拍信一直是在針對不同的業務問題來找出合適的模型和方法，這裡面有幾個方面：

模型和算法能和好刻畫業務問題

模型和算法的量化性能好

實際部署的健壯性強

上線後對業務的幫助大

目前我們的技術棧覆蓋以下兩個方面：

基本算法棧：

包含聚類，分類，預測和異常檢測；

先進算法棧：包含集成學習、深度學習、對抗學習、遷移學習、增強學習和在線學習；

另外我們也在算法的落地，就是實際場景的工程落地做了很多嘗試，如線上和線下代碼一致性的部署框架等。

上述能力的最終體現就是我們的相關數據產品，以我們的風控產品為例，有以下的一些特點：

1.覆蓋用戶的消費信貸週期

貸前的身份驗證，反欺詐檢查，信用評分和給額

貸中的風險監控和預警

貸後的催收評分和信用評級更新

2.數據驅動

對高維度的數據進行提取來覆蓋C端用戶的各個方面的屬性，目前我們提取了2500+的用戶標籤身份屬性（如：身份屬性、履約能力、行為特質、消費偏好、社交影響等）

數據的穩定性和時效性保證，目前所有原始數據都是實時更新，絕大部分衍生標籤是T+1更新的

3.大數據技術驅動基於專家經驗和深度學習的特徵工程

基於專家經驗和深度學習的特徵工程

基於知識圖譜的特徵提取和關係網絡反欺詐

基於集成學習的多數據多模型融合

基於在線學習的算法自更新

基於遷移學習的場景自適應遷移

4.產品線豐富信用

信用標籤和評分

反欺詐標籤和評分

風控規則平臺

信貸模型評分

等

名詞解釋

丨最優化：

1.構造一個合適的目標函數，使得這個目標函數取到極值的解就是你所要求的；

2.找到一個能讓目標函數取到極值的解的方法。

丨魯棒：

Robust的音譯，也就是健壯、強壯、堅定、粗野的意思。魯棒性（robustness）就是系統的健壯性。

本期的分享就到這裡啦，以上說了很多，咱們下期見，歡迎大家聯繫探討。

感謝您對拍拍信的認可與支持

我們一直在路上

分享到:

閱讀更多 拍拍信 的文章

關鍵字: 數學淺談大數據

02.27 淺談浮力的理解

淺談“宇宙胚種論”：到底是“雞生蛋”，還是“蛋生雞”？

淺談“量子物理”

淺談「火星隕石」的未來市場價值

淺談《道德經》，看你領悟的是何種之道

又一頂尖中國科學家撤離硅谷，回國力助阿里，多次刷新世界紀錄

大家都知道，由於在二戰結束後，美國便將國家的發展重心轉移至科技層面之上，憑藉著在研發方面的鉅額投入，使得美國一舉成為世界超級大國，在眾多高科技領域都享有著絕對的霸主地位。而彙集了眾多尖端科技公司的硅谷，也成為了全球多數人才所向往的地方。

《科學》發佈全球首個新冠疫苗動物實驗研究結果，來自中國科研團隊；騰訊視頻、愛奇藝等9家公司發佈行業自救聯合倡議書

1|《科學》發佈全球首個新冠疫苗動物實驗研究結果，來自中國科研團隊。5月7日，騰訊視頻、愛奇藝、優酷等9家影視公司聯合發佈《關於開展團結一心

5人口居住地將熱成撒哈拉？

一項由中美歐學者共同完成的最新研究顯示，除非溫室氣體排放量下降，否則50年後，地球上1/3人口居住的地區將如現在的撒哈拉沙漠一樣炎熱。

治理太湖藍藻有了新突破

光明日報訊西交利物浦大學研究人員最新研究成果指出，太湖藍藻治理除了減氮控磷，還需控銅。該研究已發表於環境科學與生態學水資源領域的國際頂級期刊《水研究》，這一成果對於太湖治理將有重要參考意義。

中國首次太空3D打印成功完成

PingWest品玩5月7日訊，據央視網消息，新一代載人飛船試驗船此次搭載了一臺我國自主研製的“複合材料空間3D打印系統”，這是我國首次太空3D打印實驗，也是國際上第一次在太空中開展連續纖維增強複合材料的3D打印實驗。

天文學家們稱已經找到了離地球最近的黑洞

據外媒The

我國首次太空3D打印成功完成

在新一代載人飛船試驗船上搭載了一臺“3D打印機”，這是我國首次太空3D打印實驗，也是國際上第一次在太空中開展連續纖維增強複合材料的3D打印實驗。

高美生物Gomics與諾恩生物Known Biotech合併，加速致力於癌症早檢研發及推廣

孫德強博士在Nature

一生盡瘁，國士無雙！#2020年已有15位院士去世#

#網羅天下#【一生盡瘁，國士無雙！#2020年已有15位院士去世#】5月3日，中國科學院院士張乾二逝世，享年93歲。2020年以來，我國已痛失15位兩院院士，包括6位中國科學院院士、9位中國工程院院士。他們獻身科研，嘔心瀝血，這些“國之脊樑”，值得我們永遠銘記↓↓轉發，送別！

抗病毒藥物重大發現甘草苷可抑制新冠病毒複製

據報道，北京大學謝正偉團隊和軍事醫學科學院秦正峰團隊合作，發表題為“人工智能系統顯示，甘草苷通過模仿I型干擾素抑制SARS-CoV-2”的論文，該研究通過其自主研發的人工智能藥效預測系統發現甘草的主要成分之一甘草苷能抑制SARS-CoV-2在Vero細胞中的複製，揭示了甘草苷潛在

奇怪的宇宙！宇宙正在以奇怪的方式擴張新型的暗物質如何解釋？

正常物質組成行星，恆星，您和我的物質僅佔宇宙總構成的5%。我們真的不知道它們是什麼，但是它們可以幫助解釋，為什麼我們能看到的東西?

小行星威脅！最近，小行星的超近距離飛越 10％的機會與地球相撞

美國宇航局行星防務官林德利·約翰遜在4月28日發佈的聲明中說:

院士領銜科技領軍雲南高層次人才培養支持計劃成績斐然

中國科學院2019年新增院士名單中，中國科學院昆明植物研究所研究員郝小江的名字位列其中，成功當選為生命科學和醫學學部院士。2018年3月，雲南省啟動了“高層次人才培養支持計劃”，下設3個層次9個專項。科技領軍人才專項是其中第1層次的唯一專項，郝小江院士就是其中之一。

第100次撞擊!天文臺觀察小行星撞擊月球活動升溫小行星最小5釐米

圈出的撞擊是近地天體月面撞擊和光學瞬變觀測計劃偵測到的第100次，是沙迦月球撞擊觀測臺在2020年3月1日首次觀察到的撞擊。

5500萬公里外，探測器拍到這顆星球古老河流痕跡，會有遠古生命嗎

大家好，我是小猩猩尋找地外生命，應該是我們未來很長一段時間內的一個目標。相信很多朋友也看到了我們國家500米口徑球面射電望遠鏡“天眼”開始搜尋地外文明的消息。從目前的探索情況來看，在我們太陽系內暫時還沒找到地外生命的跡象，更別說是高級的地外文明瞭。

今年最後一次XXL號“超級月亮”！不過

也是最後一次“超級月亮”此次“超級月亮”從5月7日晚18時45分開始出現，到5月8日凌晨2點9分月球運行到自己的近地點，再到8日10時35分月亮、地球和太陽排列在同一條直線上，在此期間大家都可以看到超級月亮。

宇宙也有生命？科學家研究後給出大膽猜想：“它”是什麼？

近些年來人類的科學技術不斷的發展，對世界的認知也越來越多，而我們也都知道宇宙是一個非常大的天體，甚至大到無邊無際，今天將來雖然科學家不斷的對宇宙進行研究，但始終沒有揭開宇宙的奧秘，然而這不影響科學家提出假設，認為宇宙也是有生命的那麼如果宇宙也是有生命的話，這個生物究竟有多大呢？

誰是人類文明之光？誰又是人類公敵？

新冠病毒疫情，已經明確揭示了誰是人類文明之光，誰又是人類公敵。一、到底誰是【人類文明之光】？

俄專家談月球採礦前景

據俄羅斯衛星通訊社莫斯科5月6日報道:

假如地球是一個生命體，人類最終會被清理嗎？

地球是人類生存的家園，它為人類提供了生存所需的能量、環境、空氣等等，可以說沒有地球就沒有人類。我們知道，地球已經存在了幾十億年，在人類出現之前，它發生了什麼事情我們無法得知。但自從人類的出現後，地球的生態系統尤其是自然環境受到了劇烈的影響，比如森林、河流等等。

太陽好像有特殊情況？科學家發現太陽磁性相當萎靡

我們觀測到了大量的太陽耀斑，比如1859年的卡靈頓事件，它產生了遠至加勒比海的北極光，並在電報線路中驅動電流。但幸運的是，太陽基本上是平靜的，可以說與其他恆星相比異常平靜。

宇宙大爆炸理論，讓哲學家靜悄悄的走開

宇宙大爆炸理論，最初是從廣義相對論裡面推導出來的一個結果。為宇宙大爆炸理論作出貢獻的科學家，如愛因斯坦、哈勃、勒梅特、伽莫夫他們，都名列教科書，名字熠熠生輝，可是有多少人還記得住當初那個嘲笑過愛因斯坦的柏格森呢?

原子被放大一億倍後，一個宇宙的模型出現了，微觀世界竟如此真實

自古以來，人類就對宇宙充滿好奇之心，而到了近現代隨著人類相繼發明了天文望遠鏡、火箭、宇宙飛船、太空探測器等，人類對宇宙的認識得到很大提高，但是人類對宇宙的真實結構依然一無所知。

中國科學家們創造了一種不用化石燃料的“空氣等離子”發動機原型

根據週二發表在《AIP

即將取得有關新冠病毒重大發現的華人研究人員在美國被槍殺

Researcher

黑洞真存在嗎？根據熵增定律，黑洞在宇宙中就不應該存在

黑洞曾經是廣義相對論中預言的天體，但後來真發現了這種變態的天體，而到了去年的4月10日，全球的射電望遠鏡合作對M87*黑洞進行了成像，經過2年多時間的處理終於發佈，大家看到的黑洞確實是真實存在的，但在黑洞被看到之前，早就有很多證據表明其存在了!

地球上的水究竟是從哪裡來的？科學家歷時20年終於找到正確答案

地球雖然名字叫做“地球”，但是地球卻是一顆名副其實的“水球”，地球的表面為

為何說一沙一世界？將沙子放大300倍，彷彿進入了另一個世界

人類自數百萬年前誕生以來，一直都在對這個世界，這個宇宙進行著無盡的探索。只不過由於古時候沒有明顯的科學體系，那個時候的人們只能通過自己的雙眼去觀察這個世界，觀察星空，從而得出一些猜想和結論。

明晚“超級月亮”又來了

天文學專家介紹，繼2月9日、3月10日和4月8日之後，今年的第四次也是最後一次“超級月亮”將於本月7日現身天宇。

宇宙星體那麼多，為什麼地球沒有和其它星休撞擊？

每當太陽落山，夜晚來臨之後，天上的星星也會不斷出現。我們仰望星空，可以看到無數的星星，古時候的一些星宿師們正是依靠研究這些星星的位置和佈局來初步探索這個宇宙的奧秘。

在6.5光年外，距離我們最近的棕矮星上，發現類似木星的雲帶

Luhman

「深度」“胖五”B剛發射成功，美國搞“月球圈地”想排擠中國？

昨天，長征-5B運載火箭剛剛成功完成首飛，今天美國方面就搞出了一個在月球開發方面十分惡劣的“圈地計劃”。

探測飛船在這顆距地球6億公里的星球上，再次發現了數個橢圓白點

太陽系有八大行星，每一個行星都有自己的特色，地球是其中唯一的智慧生命星球。要問太陽系八大行星哪個星球最神秘，相信不少人會回答地球。事實上，人類生活在地球上數百萬年，雖然對這顆星球還不是完全瞭解，但是地球的不少秘密已經被我們揭開，因此它並不是太陽系最神秘的行星。

為什麼海市蜃樓很難找到原型？真的是平行世界的折射？

這個世界有很多神奇的事物，有的隨著人類文明的不斷展得到了破解，尤其是隨著人類走進科技發展的時代之後，對過去不理解，神秘的很多事物都有了科學的解釋，不過仍然存在著很多無法用現代科學解釋的事物，還有一些雖然能夠用科學來解釋，卻反而讓人們產生了更多的疑問。

宇宙有最大的恆星能有多大？有直徑達到一光年的恆星嗎？

宇宙自138億年前發生大爆炸以來，形成了浩瀚廣闊的空間，同時也誕生了無數各類天體。研究天體，人們喜歡看它有多大，宇宙的主流天體還是以恆星和行星為主，恆星是行星的老大，每一個恆星周圍都會數量不等的行星圍繞它運動，比如太陽系，太陽的質量佔到了整個太陽系質量的98.

達能提供5萬刀獎學金用於酸奶和腸道菌群探索

今年是達能北美分公司開展腸道菌群、酸奶和益生菌獎學金項目的第

除了衛星導彈技術，錢學森還留下這一科技，全球只有五個國家有

文/貓行圖/網絡除了衛星導彈技術，錢學森還留下這一科技，全球只有五個國家有！如果要說起錢學森想必每一箇中國人都不會忘記他，正是因為有了錢學森的幫助，才使得近代中國的發展，有了飛躍的提高。

英國遺傳學研究報告：任何想要找到0號病人的想法都是不現實的

倫敦大學學院遺傳學研究所的遺傳學研究員弗朗索瓦·鮑盧克斯（Francois

新疆的“死海”正在復活，水都是怎麼來的？原來是這樣

地球的資源都是非常珍貴的，我們曾經總是說地球資源非常豐富，但是在人類的不斷髮展過程中，人類十分依賴地球資源，對地球資源進行不斷的開採，導致地球上的資源變得越來越匱乏。

又一頂尖科學家離開美國！美科技界炸鍋：他居然回國發展AR科技

又一頂尖科學家離開美國！美科技界炸鍋：他居然回國發展AR科技相信不少IT圈的人都知道最近中國科技圈發生的大事，賈揚清帶著阿里雲的EMR團隊再次刷新了TPC-DS的性能紀錄，這也是大數據領域門檻最高的比賽。

用基因“拼圖”！歐洲首次人工合成活的新冠病毒，一週之內可大量生產

近日，發表在《自然》上的一篇論文“Rapid

霍金留下的這幾個預言，有一個正在醞釀，或關乎人類的生死存亡

據2020年5月5日的新聞報道，據發佈在《美國國家科學院院報》上的一篇題為《Future

星系碰撞和星系併合，天體物理學的前沿研究

在1923年的時候，來自國美的天文學家哈勃，第一次證實了河外星系是真實存在的。從這以後，人們開始越來越多的發現到了不同的河外星系，形態各異。由於大型望遠鏡和空間望遠鏡的研製成功，在對外星系的研究和探索中，已經成為天體物理學的前沿研究，這裡面最引人矚目的就是星系之間的碰著和併合。

超級月亮又來了！這將是2020年最後一次

今年的超級月亮會有四次。分別是2月9日、3月10日、4月8日。以及5月7日，即今年最後一次超級月亮。

重磅：Nature全線137種期刊加入中國知網

中國知網與施普林格-自然集團簽署合作協議，《自然》全線137種期刊加入CNKI平臺。《自然》系列含84種Nature

我國“一箭9星”發射成功，印度“一箭百星”為什麼被外媒吐槽

去年年底，中國實現了一箭9星的任務，受到了世界各國的讚美。一箭9星相比印度的一箭百星差遠了，為什麼印度不僅沒有獲得稱讚，反而被西方媒體吐槽呢？一箭多星，可以將消耗的成本降到最低。這種技術最早是由美國提出來的，中國第一次發生一箭多星是在1981年的時候。

5月7日，偽超級月亮同樣照亮夜空

最近看到有媒體報道，說5月7號，會再次發生“超級月亮”。一直關注我們節目的小夥伴們可能都納悶兒了，這“超級月亮”也未免太頻繁了吧!

愛因斯坦：宇宙都是設計好的！難道所有"掙扎"都是枉費？

愛因斯坦偉大理論背後最重要的思想就是對稱性，這與

機器人或出現意識？可能導致人類滅亡？是真的嗎？

在科學中，人工智能的發展是人類未來的一個趨勢，這個方向是無法進行改變的，然而人工智能技術會達到什麼狀態，這是如今無法進行與判斷的，當然變得越來越好是可以肯定的。

總覺得外星人科技更先進？但是人類可能就是最高級文明瞭！

在人們被自認為無法想象生物多樣性的想法弄得浮想連翩之前，我們知道了某些東西。它需要一些複雜的化學反應來製造生命，這意味著它必須是以碳或者以硅為基礎，它們是唯一能夠產生複雜化學反應的原子。第三代恆星將137億年時間限制到70~80億年，這段時間還是很漫長。

拍拍信Data Scientist丨淺談數據科學在實踐中的應用

拍拍信的數據科學：

相關文章:

02.27 淺談浮力的理解

淺談“宇宙胚種論”：到底是“雞生蛋”，還是“蛋生雞”？

淺談“量子物理”

淺談「火星隕石」的未來市場價值

淺談《道德經》，看你領悟的是何種之道

又一頂尖中國科學家撤離硅谷，回國力助阿里，多次刷新世界紀錄

《科學》發佈全球首個新冠疫苗動物實驗研究結果，來自中國科研團隊；騰訊視頻、愛奇藝等9家公司發佈行業自救聯合倡議書

5人口居住地將熱成撒哈拉？

治理太湖藍藻有了新突破

中國首次太空3D打印成功完成

天文學家們稱已經找到了離地球最近的黑洞

我國首次太空3D打印成功完成

高美生物Gomics與諾恩生物Known Biotech合併，加速致力於癌症早檢研發及推廣

一生盡瘁，國士無雙！#2020年已有15位院士去世#

抗病毒藥物重大發現 甘草苷可抑制新冠病毒複製

奇怪的宇宙！宇宙正在以奇怪的方式擴張 新型的暗物質如何解釋？

小行星威脅！最近，小行星的超近距離飛越 10％的機會與地球相撞

院士領銜科技領軍 雲南高層次人才培養支持計劃成績斐然

第100次撞擊!天文臺觀察小行星撞擊月球活動升溫 小行星最小5釐米

5500萬公里外，探測器拍到這顆星球古老河流痕跡，會有遠古生命嗎

今年最後一次XXL號“超級月亮”！不過

宇宙也有生命？科學家研究後給出大膽猜想：“它”是什麼？

誰是人類文明之光？誰又是人類公敵？

俄專家談月球採礦前景

假如地球是一個生命體，人類最終會被清理嗎？

太陽好像有特殊情況？科學家發現太陽磁性相當萎靡

宇宙大爆炸理論，讓哲學家靜悄悄的走開

原子被放大一億倍後，一個宇宙的模型出現了，微觀世界竟如此真實

中國科學家們創造了一種不用化石燃料的“空氣等離子”發動機原型

即將取得有關新冠病毒重大發現的華人研究人員在美國被槍殺

黑洞真存在嗎？根據熵增定律，黑洞在宇宙中就不應該存在

地球上的水究竟是從哪裡來的？科學家歷時20年終於找到正確答案

為何說一沙一世界？將沙子放大300倍，彷彿進入了另一個世界

明晚“超級月亮”又來了

宇宙星體那麼多，為什麼地球沒有和其它星休撞擊？

在6.5光年外，距離我們最近的棕矮星上，發現類似木星的雲帶

「深度」“胖五”B剛發射成功，美國搞“月球圈地”想排擠中國？

探測飛船在這顆距地球6億公里的星球上，再次發現了數個橢圓白點

為什麼海市蜃樓很難找到原型？真的是平行世界的折射？

宇宙有最大的恆星能有多大？有直徑達到一光年的恆星嗎？

達能提供5萬刀獎學金用於酸奶和腸道菌群探索

除了衛星導彈技術，錢學森還留下這一科技，全球只有五個國家有

英國遺傳學研究報告：任何想要找到0號病人的想法都是不現實的

新疆的“死海”正在復活，水都是怎麼來的？原來是這樣

又一頂尖科學家離開美國！美科技界炸鍋：他居然回國發展AR科技

用基因“拼圖”！歐洲首次人工合成活的新冠病毒，一週之內可大量生產

霍金留下的這幾個預言，有一個正在醞釀，或關乎人類的生死存亡

星系碰撞和星系併合，天體物理學的前沿研究

超級月亮又來了！這將是2020年最後一次

重磅：Nature全線137種期刊加入中國知網

我國“一箭9星”發射成功，印度“一箭百星”為什麼被外媒吐槽

5月7日，偽超級月亮同樣照亮夜空

愛因斯坦：宇宙都是設計好的！難道所有"掙扎"都是枉費？

機器人或出現意識？可能導致人類滅亡？是真的嗎？

總覺得外星人科技更先進？但是人類可能就是最高級文明瞭！

抗病毒藥物重大發現甘草苷可抑制新冠病毒複製

奇怪的宇宙！宇宙正在以奇怪的方式擴張新型的暗物質如何解釋？

院士領銜科技領軍雲南高層次人才培養支持計劃成績斐然

第100次撞擊!天文臺觀察小行星撞擊月球活動升溫小行星最小5釐米