巴曙鬆主持,David Zhang主講:大數據與AI在證券化研究中的應用

巴曙松主持,David Zhang主講:大數據與AI在證券化研究中的應用

【特邀嘉賓】

David Zhang, MSCI董事總經理及證券化產品研發主管。加入MCSI之前,David擔任瑞士信貸董事總經理及證券化產品建模主管逾十年,其團隊建立的MBS模型是固定收益機構投資者最廣泛使用的模型之一,多年被機構投資者評為全美最頂級房屋抵押債券早償風險研究團隊。David還擔任全美華人金融協會(TCFA)董事,全球華人地產協會(GCREC)董事,和紐約國際風險管理協會(NYPRMIA)董事等職務。David獲得普林斯頓大學博士學位。

【會議紀要】(文中“我”指主講專家,文中觀點僅僅代表主講人個人觀點,不代表任何機構的意見,也不構成投資建議,僅供內部討論)

巴曙松主持,David Zhang主講:大數據與AI在證券化研究中的應用

一、美國證券化產品的基本狀況

美國固定收益市場中將近1/3是證券化產品。在2007年金融危機之前,證券化產品是全球最大的金融資產,大於美國國債市場。目前,因國債市場上漲較多,證券化產品市場成為第二大金融資產。

巴曙松主持,David Zhang主講:大數據與AI在證券化研究中的應用

圖1

上圖顯示了2007年與2018年美國證券化市場分類的變化。在2007年之前,非“兩房”持有的房地產貸款證券化市場很大,但現在已基本消失。而目前,車貸市場和信用卡貸款市場反而比金融危機前更大。現在證券化市場已恢復到金融危機之前的水準,但是在分類上尚有區別。美國早在1930年代就開始做證券化市場,發展至今已相對成熟,在金融危機前是其最大的金融資產類別。例如,美國的消費者信貸中60%的資金來自證券化市場;工業方面的信貸市場資金將近50%通過證券化市場而來。相比而言,歐洲證券化市場規模較小,在其整體金融資產規模中佔比大概在10%左右。當前中國的證券化市場發展也很快。從2013-2014年開始,中國證券化市場突飛猛進,目前已超過歐洲,成為全球第二大證券化市場,如果按照目前的趨勢發展,十年之內有可能超越美國。

巴曙松主持,David Zhang主講:大數據與AI在證券化研究中的應用

在美國,證券化除了在提供融資方面起到重要作用,宏觀經濟政策也與證券化息息相關。例如,2009年美聯儲啟動量化寬鬆,其中有將近一半資金,約1.8萬億美元購買了兩房的證券化資產。可見,證券化在美國有很大市場,且不光關係到經濟、消費,還關係到貨幣政策、金融政策和稅收等。

二、為什麼要將大數據和AI用於證券化

從定價到防範風險再到模型方面,證券化具有以下幾方面特點:

一是數據量大。美國證券化市場的數據量是巨大的。即使是在公共市場裡面最小的數據群,也有將近兩個G。因為在美國有將近一億個政府資助證券化項目,已有20餘年歷史,每個月都有數據沉澱,積累下來數據量巨大。而延伸到銀行貸款方面,數據比公共數據還大一千倍。

巴曙松主持,David Zhang主講:大數據與AI在證券化研究中的應用

二是風險因子很多。從30到300到上萬都有可能,證券化處理過程是金融機構給個人貸款,資金市場再進行打包,最早貸款的數據量比做證券化的公共數據大很多倍。

三是風險因子非線性,風險因子相互作用,因此模型、避險、定價、數據都不均勻。例如2003年到2007年信用環境較松,這種情況下的數據和現在信貸數據較緊時的數據,不能夠一視同仁。這是風險、定價、模型困難的地方之一,還有技術方面的挑戰。這些挑戰通過大數據和人工智能更容易解決,這是大數據和人工智能較合適的切入點,如利用大數據評估資產違約、壞賬等方面風險,利用人工智能做證券化提早付款模型。

三、通過大數據看美國高房貸壞賬情況

巴曙松主持,David Zhang主講:大數據與AI在證券化研究中的應用

圖2

2008年金融危機之前的房貸危機,使得美國房價下跌,產生大規模壞賬。2007年的壞賬率高達百分之十幾,其中有個很奇怪的現象是,將近1/3的房貸壞賬對應的房價沒有損失,如2003年買房,價格100萬,貸款80萬,到2006年,房價漲到200萬,再到2007年跌回100萬,雖然借款人沒有虧,但壞賬率仍然很高,剔除提前付賬的因素,壞賬率要高達8%。這個問題引起學術界與監管的許多猜想。如,是否是購房時未貸款,而是之後用已購房產再貸款的人群壞賬率較高。類似的問題我們藉助大數據研究發現,2003-2005年房價上漲一倍,房主貸款人做了很多二級房貸、消費貸款等,造成借貸壓力較大,導致壞賬。

巴曙松主持,David Zhang主講:大數據與AI在證券化研究中的應用

資產證券化產品由於是打包出售,投資者無法獲得太多關於資產、信貸安排、風險緩釋安排等方面的信息和數據,我們希望通過大數據的方法把公共數據和私人數據進行連接。這樣一來,對於發行債券或者發行股票,投資者就能看到更多數據。在實際推進中需要納入三大個人徵信機構等方面數據,存在數據量巨大等方面挑戰。

四、為什麼要建立代理MBS的機器學習模型

提早付帳率是非常複雜的現象,且非線性,有大量的非系統性風險因子。近幾年,特別是阿爾法打敗了李世石後,我們覺得軟件功能、硬件功能都提高了很多,所以允許我們嘗試用人工智能的手段來解決模型的問題。機器學習模型在圖像識別、自然語言處理、欺詐檢測等領域有著廣泛的應用前景。MBS人工建模有一定的工匠性,建模時間長,且同樣的數據做出的模型會有不同,有很多個人主觀因素,這會產生金融模型準確性等方面的問題,可信程度易受到質疑,因此需要通過人工智能進行一定改進。

巴曙松主持,David Zhang主講:大數據與AI在證券化研究中的應用

提早付賬建模困難,主要是因為以下原因。第一,數據量大。量在2-2000G之間。在20年間,美國已有將近一億個貸款,每月都有數據沉澱。第二,多種風險因素。例如貸款規模與個人經濟收入等有關,與可節省資金也呈非線性關係,與貸款目的也有關(如房貸是為了購房還是為了再融資,風險水平不同),多風險因素增加了建模的難度。一般建模有經驗的需要一年時間,如果通過人工智能參與,會有革命性貢獻。首先,人工智能建模非常精確;其次,建模速度極快,人工需要一年完成的建模,它僅需3小時。這是金融技術的顛覆性革新,後續3-5年有可能實現標準化推廣。

五、機器模型、人工模型運用情況舉例

巴曙松主持,David Zhang主講:大數據與AI在證券化研究中的應用

圖3

左邊的圖表示的是前置神經網絡,X、Y分別表示風險因子,Z表示你想要預測的數值,這是比較經典的神經元模型。基於“兩房”貸款數據做提前償付率模型的擬合度驗證,結果如下,見圖4。

巴曙松主持,David Zhang主講:大數據與AI在證券化研究中的應用

圖4

圖4是模型的測算結果,藍線是“兩房”貸款提前償付率實際情況,與模型測算數據基本吻合。模型建立都是基於預期風險因素,但如果出現非預期風險因素,例如颶風等非預期風險,模型的預測結果與實際情況會有出入。因此,在這一方面不能夠完全預測市場。

巴曙松主持,David Zhang主講:大數據與AI在證券化研究中的應用

圖5

圖5的模型中有一段不能對現實做到準確分析,因為在這段時間裡有特別的(非預期性)風險因子在起作用。如果可以對歷史數據模擬得較好,對預測、分析應當會有很大的幫助。

巴曙松主持,David Zhang主講:大數據與AI在證券化研究中的應用

圖6

模型中有30餘個風險因子,如何驗證每一個風險因子都擬合的很好呢?我們分別驗證模型在單個風險因子不同數據區間上的擬合情況。左上角驗證風險因子FICO的擬合情況,FICO是美國的信用分數,由圖可見,在不同的FICO分數區間,模型數據與現實數據的擬合度均較高。右上角是SATO數據,左下角是貸款數目,對模型影響很大,右下角是貸款和房子總額的比率,如果是80%,則表示首付款為20%,在這些風險因子的不同數據區間,模型擬合的都很好。

巴曙松主持,David Zhang主講:大數據與AI在證券化研究中的應用

圖7

圖7是基於加州與紐約房地產貸款數據的AI模型與人工模型的擬合情況。左邊是加州,右邊是紐約,兩者主要區別是紐約有房地產重新貸款稅,如果想要重新尋求低利率貸款,政府會徵收70-100bps的稅收。由圖可見加州的上漲比紐約快很多,虛線表示實際情況,紅線是AI模型測算數據,綠線是人工模型測算數據,可見AI模型擬合得更好。

之前的擬合度驗證都是基於單一風險因子不同數據區間的驗證,我們還將不同風險因子整合進行擬合度驗證,具體做法是根據預測將數據從高到低排列,再將其分為不同組,將各個組的實際數據與AI模型測算數據做對比,驗證發現,AI模型較人工模型擬合度更高。

巴曙松主持,David Zhang主講:大數據與AI在證券化研究中的應用

圖8

在“兩房”貸款中有一個名詞叫“媒介效應”。假如前者房貸利息是5%,後者房貸利息4.5%相比,前者提早付款率高於前者,因為前者重新貸款節省資金更多。但如果利率連續下降,如連續下降5年,則後者的提早付賬率反而要高,這就被稱為“媒介效應”。之前提到提早付賬預測模型一般有30到100個風險因子,風險因子間互相作用,上圖就是5個風險因子互相作用,人工做模型比較困難。左一是實際情況,表示利率分別是3.5%、4%、4.5%的三種債券的提前還款率。提前還款率一般是3.5%、4%、4.5%依次遞增。但實際上在2011年、2012年,9-12個月的時間藍線在紅線之上,紅線在綠線之上,這是在特定情況下才會出現的“媒介效應”。中間是機器模型,右邊是人的模型,可見機器模型模擬的比人的模型更精確。機器模型只需要三個小時就可以完成一次,由於用時短,還可以做很多不同模型的比較分析。

巴曙松主持,David Zhang主講:大數據與AI在證券化研究中的應用

【問答環節】

Q1:將來隨著技術進一步發展,在資產證券化領域,若資產本身產生的過程當中就把人工智能、區塊鏈技術融合進來,使得資產的質量更高,這對後期的分析或將來整個資產證券化跟技術的結合有什麼新的好處和進展?

A1:證券化的產生,一個主要原因就是對於資產如果技術非常發達,任何數據都能得到,這種趨勢很明顯。通過數據,不光可以看到借款人的負債情況,還有他的收入數據、駕駛數據以及多維度行為數據等,就可以對信貸資產的風險進行定價,這樣就不需要再做證券化。國內支付寶就有很大的數據量,計算能力很強,在有的時候就能夠做到因人而異的風險預測。將來如果所有的資產就可以引進數據分析,就不用做證券化了,我想這方面也是一種可能性。

巴曙松主持,David Zhang主講:大數據與AI在證券化研究中的應用

Q2:據我所知人工智能或者說機器學習包含了各種不同的技術,包括你提到的神經網絡。我想知道其他的技術,比如基因算法或全腦模擬有沒有在證券化這個領域被應用,將來會不會被應用?

A2:人工智能各項技術目前各公司、業界都在發掘,有很多應用,比如神經網絡、短期/長期記憶技術等。人工智能近五年發展非常快,幾乎日新月異。以前做人工智能需要很多訓練,需要很專業的人工智能博士等。但現在人工智能軟件方面進展很快,已經做了很多很成熟的package,在軟件技術分享等方面進展很大,一些非人工智能專業的人,對於人工智能可以不知道很多細節,也可以使用這些package。

巴曙松主持,David Zhang主講:大數據與AI在證券化研究中的應用

Q3:美國有些團隊正在研究如何把區塊鏈的技術直接介入到資產證券化行業裡。目前中國的資產證券化發展勢頭很不錯,是不是可以考慮把區塊鏈技術跟資產證券化市場更加緊密結合起來,讓中國在這個領域能夠走到世界的前列?

A3:區塊鏈與資產證券化的結合,在美國有好幾家公司同時在做,這可能也是一個突破性的技術,通過區塊鏈可以看到資產是否被篡改。但是對於中國的情況我瞭解不多,到目前為止,我不知道有哪家機構在做區塊鏈與證券化結合。一個月前在北京的會議與幾家銀行的交流得知,他們正在考慮通過區塊鏈技術做資產證券化,也包括大數據、人工智能等技術,這是一個創新的方向。

巴曙松主持,David Zhang主講:大數據與AI在證券化研究中的應用

本文為內部交流紀要,未經主講嘉賓本人審閱,所載信息均為個人觀點,不代表任何機構的意見,僅供“全球市場與中國連線”的活動參會人員使用。紀要根據參會者發言整理,不保證相關信息的準確性和完整性。紀要中所述內容和意見僅供參考,不構成對所述資產的投資建議。

本文版權為“全球市場與中國連線”會議秘書處所有,本團隊對本紀要保留一切權利,未經事先書面許可,任何機構和個人不得以任何形式翻版、複印、發表或引用本紀要的任何部分。


分享到:


相關文章: