李憓鬆演講篇|圖數據庫-釋放數據的力量


李憓松演講篇|圖數據庫-釋放數據的力量

圖1:TigerGraph高級解決方案工程師 李憓松

李憓松,現任TigerGraph高級解決方案工程師。具有豐富的大數據分析和工程經驗。負責過TigerGraph在中國與多個金融客戶的項目、技術支持及用戶培訓。致力於圖數據庫和金融,電商等多領域的整合。

<strong>2018年11月16日,由<strong>CTOA首席技術官領袖聯盟、ITShare主辦,<strong>熠韻商務諮詢有限公司承辦,“<strong>科技賦能 規範融合”主題的<strong>2018FinTech領袖峰會上。TigerGraph高級解決方案工程師 李憓松,帶來了精彩的主題演講:“<strong>圖數據庫——釋放數據的力量”。

<strong>以下內容為大會演講內容:

<strong>李憓松:非常榮幸來參加本次峰會,跟大家分享《圖數據庫——釋放數據的力量》。首先這個給大家介紹一下首先圖是什麼?圖數據庫是什麼?為什麼要講釋放數據的力量?圖數據是用點擊和編輯存儲數據化的方式,我們並不是存儲圖片的倉庫,圖數據庫用這種數據形式,以圖結構計算和分析數據,或底層也是用圖的結構來存儲數據的數據庫產品。我們為什麼講數據釋放的力量,剛才我們聽到新網銀行的李總講了很多數據,我們平時也做數據挖掘的工作。

我為什麼講釋放數據的力量,數據之間還有哪些我們沒有發現的信息沒有挖掘到,這是我們要講的主題。


李憓松演講篇|圖數據庫-釋放數據的力量

圖2:現場PPT內容

首先我們認為,圖數據庫文案市場,比如Facebook,社交網絡的網站,本身很多用戶關聯在社交網絡上面的,谷歌更是,網站網址的相互關係,相互關聯,甚至谷歌自己圖數據庫的算法,比如亞馬遜,阿里巴巴,核心的商品的推薦,也是基於網絡分析的。我們認為整個互聯網相互交互,信息相互傳遞和連接,都是有充分價值的,都適合於存入以圖的形式記錄的。

其實我們可以看到,這個圖表來自於DB-Englines,是非常有名的圖數據庫發展評分的平臺,從2014年開始上面一條圖數據庫的線,熱度非常高,今年圖數據庫AWS、微軟都推出自己圖數據庫平臺的數據,不僅僅金融行業,其他的一些比如地產等行業,他們都會想圖數據庫能給大家提供新的價值。


李憓松演講篇|圖數據庫-釋放數據的力量

圖3:現場PPT內容

這是Gartner對圖數據庫的評價,我們收集了數據資源以後,建立大量數據倉庫,數據圖,影響這些企業往前發展,利用數據做決策和執行的時候,什麼是最大的差異呢?就是我們今天提到圖分析技術。

圖有一個什麼樣的優勢使得剛才Gantner評價說,我們獲得數據以後,企業之間差距最大的東西呢?就是因為圖是適合於表達知識的一種方式,我們剛才最開始的階段,都是在數據這一層,從數據如何提煉出有用的信息,再把這些信息關聯起來,表達成知識,最後把這些知識變成可以在各個領域,各個上下文之間能夠遷移重用的智慧,你是需要建立一種知識的網,知識的圖譜來實現的。


李憓松演講篇|圖數據庫-釋放數據的力量

圖4:現場演講內容

除了把圖數據表達成知識,社交圖譜之外,還有什麼應用呢?我們分為四類,第一類鏈接的分析,我現在可能是TigerGraph的一名員工,可能和剛才的新網李總姓是一樣的,我也姓李,還有其他的關係把我們關聯上?今天有一個關係,我們同樣參加這麼一個峰會。是否還有快速的途徑把我們關聯在一起,這個就是比較適合在圖中做的,在關係的數據庫當中,或者很難做的原因是什麼?中間的維度特別多,層數特別多,你沒有辦法用確定的方式來告訴我說,可能要走一些公用電話、共同生活的城市、共同去過的商場,這樣維度太廣了。而且是朋友的朋友認識的呢?這個也沒有限制的。但在圖上就是一個兩點之間最短路徑的問題,這是第一個我們認為圖擅長可以做的。

第二個就是圖的模式匹配,比如說你可以在圖上判斷說,特殊的三角型,環型。環型可能涉及到環型鏈路之類的。

第三種更深層次的挖掘圖信息的想法,比方說我今天構建了交易的圖譜,然後我把人作為點放在圖譜上,交易就是連了一條線,正常的結構抽象出今天的日子,抽象出圖的主幹的模型,T+1日,T+2日,每天有一個切片,從這些切片當中發現到圖演化的模型,今天新來的數據符不符合演化的模型,我們看到今天交易是不是符合日常漫談。

第四方面我表示整個行為流程進化的方式。以上是圖的四大領域。


李憓松演講篇|圖數據庫-釋放數據的力量

圖5:現場PPT內容

我作為TigerGraph的員工,我們公司的產品,可以實現我們上面的圖分析、圖計算、圖存儲挖掘價值的公司。我們30多位工程師,近一半以上計算機博士,A輪融資融了3300萬美元,我們目前是業內第一個也是唯一一個原生存儲並進行圖技術。現在已經被Uber、Visa、Intuit等等使用。

我們認為圖數據庫產品,應該支持兩方面,一種是我們傳統的ALTP和OLAP兩種方式都應該可以融入到一個圖數據庫產生當中,我們需要具有OLTP的實時讀寫,也要支持他ACID原則,並且利用圖的優勢進行計算特別密集的多維分析,來挖掘剛才我說到的,我們可能日常挖掘沒有挖掘的價值。剛才看到新網銀行李總的PPT,看到社交關係,關係網的挖掘。是一樣的,這是我們一些特點。包括我們可以深度分析,具有強建的性能,支持識事務型,具有真正的豐富式擴展,支持企業級的數據量,我們知道現在互聯網數據量非常非常大,我剛才說了很多圖計算的優勢,如果我們不能真正有一個產品,可以Hold住這些能量,能真正給你打造出業務要求的時間窗口,來返回你查詢,其實剛才說就沒有任何價值和意義。

我們作為企業級的應用,有數據的隱私保護,包括你實時傳入隱私保護和存儲的隱私保護,我們有適合於你編寫查詢的查詢語言,你可以應用任何邏輯和任何圖算法。

這是我們TigerGraph目前市場上接觸到的和一些合作碰撞出來一些圖的解決方案和應用,我們可以關聯到你們的主數據、業務數據、歷史數據,我不是簡單的多一些沒有用的東西給你計算模型。而是基於圖的結構。

比方說我這個人有一個標籤是男性,20到30歲的狀態,同樣這樣的人有很多,還有一些什麼樣,除了自然標籤有差異,比如說我身邊的朋友,我現在還擔心,我身邊全是女性朋友,另外一個不單身全是男性朋友,或者身邊的人熱愛運動或者不熱愛運動,基於社交關係或者圖關係的新標籤。或者我社交圈子廣泛不廣泛,這是一個圖帶來積極學習的新特徵。我們應用在金融行業的話是反洗錢、反欺詐、信用評級、監控、信用傳播等等。我們很多方面在地理位置,我們和一些運營商合作,跟一些房產公司合作,供應鏈管理,大型機械製造業,IT網絡架構,實際上如果你本身有一些特別複雜的結構,都適合利用圖來做。

我們支付欺詐的案例,我們可以在支付前處理識別欺詐,達到實時,在支付前以一個時間窗口比如說200毫秒來儘量遠的去往遠走,看有沒有日常的節點,黑點,比如有幾個,符合罰值的我們警報,拒絕交易等等。

我們最大的實力能分佈在20個256G的服務器上,處理每天20億次實時交易更新,這裡麵包括有1000億個實體頂點,當然包括客戶交易。

反洗錢案例當中發現,傳統規則可能出現的漏報,比方說如果傳統規則,我們沒有電話號碼關聯的方式,甚至不止電話號碼,比如說住址、他的交通方式、卡和電話,用傳統的規則塑造方式,我可能沒有發現新的註冊用戶,他有風險的,基於圖就可以發現,這個人通過電話號碼,跟其他的四個賬戶,被警告變為SAR,我認為這個新的賬戶,可能發高風險警報,下面反洗錢當中發生誤報,我們知道反洗錢不能容忍有錯,我們把好壞都抓來。以前美國一個金融公司介紹,反洗錢準確率5%,95%不對的,我們需要大量的人工來排查,把這些錯誤排除掉。我們這個維度給你更多的維度,更細的判斷,高風險,中風險或者低風險這樣給適當的業務人員輔助他來做風險判斷。傳統的方式,我只發現對手方曾經有SAR就是高風險了,現在這個圖裡可以看到,其中有一個對手方狀態可能是Closed掉了,他可能不是最高風險的人,可能要把風險降低。


李憓松演講篇|圖數據庫-釋放數據的力量

圖6:現場PPT內容

這個反洗錢機器學習的案例,上面一些標籤性的,是和否,之間不能提高準確率,或者提高準確率很低了,我們換一個角度,換在圖數據庫當中,比如我們有一個條件是否在高風險區域,比如說特殊的身份,特殊的地區,特殊的APM網點,他基於網點和風險區的分離度是多少,這是社交網絡的查詢,跟微信的離心度有多少,這是圖的特徵,我們標誌分離程度是0還是3還是多少,基於圖的特徵,輔助機器學習提高準確率,我們可以區分出同樣發生的警報,是高風險還是低風險。

反洗錢還有新想法,洗錢的人不可能在一家銀行洗,或者筆數特別少金額特別大,他可能會換銀行。除了換銀行離岸,現在還有新方式使用傳統貨幣加上加密貨幣倒來倒去的方式,如果我們不能把兩筆結合在一起,洗錢法斷掉了我們不可能判斷是不是真正的洗錢行為。

我們跟國內比較大在線支付平臺的案例,他們具有5億2千萬用戶,每秒25萬多次的欺詐要檢測。我們解決方案是什麼呢?就是像我剛才說的我們把這些用戶和他一些其他的屬性,把它關聯到圖裡,包括他的設備、地點、信用卡等等。我們也知道,像這家企業,本身就是有一個自己的生態。所有數據,比如這個人愛看什麼視頻,愛聽什麼音樂,吃什麼東西都知道。

再比如一些其他的支付平臺,會買外部的數據支付這些東西,應用到全部的圖數據庫,提供查詢,提高準確率。圖數據庫特別方便的是,案件調查實際挖掘的時候,可以以可視化的方式,來告訴你,到底發生了什麼,不用你自己一個個關聯去做表的關聯。

最後客戶收集到什麼呢?就是說欺詐和反洗錢監測擴大每天20億條的交易,承受住真正可以接受的交易量,最後提升了效率,並且節省了成本,不論數據存儲還是人工的成本。

我有一個在線的演示,演示一下基於我們平臺,反欺詐是什麼樣的效果。這個就是我們在線演示的平臺,服務器在AWS上,其中有很多場景,其中一個反欺詐場景,剛才我說到了,我們可能會要把這些業務實體總結到圖中,比如說這裡紅色是真正的用戶,綠色的部分是交易的點,因為交易是一個事件,還有淺綠色的交易的方式和下面交易的設備在哪裡。我們看到很多線,用戶使用的交易設備,用戶使用交易方式,用戶進行轉賬和轉出的線,還有一些迴環,比如用戶這條環,來表示用戶來推薦用戶的一種行為。


李憓松演講篇|圖數據庫-釋放數據的力量

圖7:現場演講內容

我們把你的結構化數據,或者半結構化數據進行導入的影射的過程,最後導入。我們可以看一下,最後我們給大家看兩個例子,第一個例子是一個反薅羊毛的例子,我介紹一個User介紹另外一個User查詢出來,比方說用戶推薦用戶,可能會給他優惠政策、福利、現金這些東西,我們找到這些人,他邀請新用戶之後這些新的用戶不會再活躍的,不會再邀請新用戶或者不會再交易,我們把這些人查出來,執行一下,隨便找一個人。我們迅速查到,中間著重顏色,白邊我查詢的賬戶邀請的其他賬戶,他是否具有很多交易,他是否又邀請了新的人,我判斷是不是薅羊毛行為的判斷方式,剛才那個數據有40億頂點,有8億是USer,怎麼快速的把裡面快速查找出來,提高效率。

下面演示一個反洗錢鏈路的案例,輸入一個用戶,看它是否有一條迴環,我們設置的條件,要交易3到6次,回到我本身,而且時間要是一個單調的過程,不能是發生過就算了,是我轉給你再轉給他,按照時間的先後順序,然後看是否有迴環,一個反洗錢的情況,也同樣是在剛才的數據集當中,能快速的的找到這樣的東西,所以我們可以提高效率和減少成本。

展示的部分就到這裡,我今天就分享到這裡,非常感謝大家!謝謝!


出自:2018年11月16日,“科技賦能 規範融合”2018FinTech領袖峰會

由CTOA首席技術官領袖聯盟整理發佈,編輯:CTOA秘書處-高繼升 轉載註明來源作者

<strong>精彩活動

李憓松演講篇|圖數據庫-釋放數據的力量


分享到:


相關文章: