達觀數據:AI驅動,3分鐘審核債券募集說明書常見5類錯誤

達觀數據:AI驅動,3分鐘審核債券募集說明書常見5類錯誤

人工智能在金融領域的應用集中在客戶營銷、智能對話、資本運營、市場分析、智能投顧、風險審核、輿情分析等場景,本文將主要圍繞人工智能NLP技術在債券募集說明書審核上的應用展開,談一談人工智能在這些場景中的應用、價值和發展。

文章中所有募集書數據皆來源於公開披露信息。

達觀數據:AI驅動,3分鐘審核債券募集說明書常見5類錯誤

01引言

人工智能是本世紀科技上的重大突破,是新一輪科技革命及產業革命重要的著力點,稱它為第四次工業革命的代表也不為過。人工智能的發展對國家經濟結構的轉型和升級有著重要的意義。自2017年7月20日,國務院印發《新一代人工智能發展規劃》後(通知鏈接:http://www.gov.cn/zhengce/content/2017-07/20/content_5211996.htm),人工智能得到了快速發展,各種AI公司雨後春筍般的跳出來,一同研究人工智能在各個領域的應用,期望通過人工智能技術賦能企業,旨在提高企業工作效率,進而提升企業競爭力,達到降本增收目的。

其中金融領域是人工智能應用最好的領域之一。其數據量大,技術最前沿 ,技術變革需求最迫切,為人工智能在金融領域的大展拳腳提供了有利條件。在金融領域中,人工智能技術被廣泛研究和創新,應用於智能客服、客戶營銷智能分析、智能投顧、智能審核等各業務場景,並且都取得了長足的進步。下面我們來談一談,人工智能是如何賦能金融企業,推動企業技術變革的。


02人工智能在智能化文檔審核上的應用

眾所周知,在銀行、保險、證券、基金等金融企業中,審核工作頗為重要。從內容上看審核可以分為圖片審核、視頻審核、音頻審核、文本審核4類,其中對文本的審核工作最為困難。因為文本量非常大,且存在很多非結構化的文檔,審核起來頗為麻煩。我們今天主要講人工智能在文本審核上的應用。


企業文檔審核現狀

企業中含大量的文本數據,這些文本數據大部分都是非結構化或半結構化數據,有word版、PDF版本、PPT、Excel、TXT、CSV、圖片、掃描件等形態,例如合同文檔、工單數據、企業研報、年報、招股書、募集書等文檔,企業中有大量的這類文檔,僅僅靠人來審核是力所不及的。現狀是審核人員少,審核工作量大,業務員為了完成任務,加班加點,但也只能望洋興嘆,退而求其次,挑重點內容進行審核。這樣做不但效率不高,人員壓力大,而且審核有盲點!

下面就為大家介紹下,如何通過自然語言處理(NLP)技術解決人工審核文檔難的問題。


募集書審核場景

券商、基金公司一直是個多金的行業,但從業人員的工作壓力也非常大。日常文檔編寫、文檔修改、文檔審核工作佔大量時間,且有時也無法顧及周全。以券商中債券業務為例,債券業務一般可分為承攬、承做、承銷三個階段。承做階段的文檔審核工作尤其重要,債券募集說明書是重中之重。文檔質量影響著券商的口碑,口碑則關係到券商評級,進而影響到能接到多少項目。所以募集書這類申報文件應高度重視。

現狀是,業務組接到項目後,開始準備項目材料,編寫募集書,在編寫募集書時,有些發行人是非首次發行募集書,所以可以參考歷史的材料來修改。編寫過程中,主要工作就是增、刪、改,過程中業務組反覆檢查募集書內容,對上下文的一致性以及財務勾稽關係重點檢查,自認無誤後提交質控組領導審核。一份募集書大概有200頁上下,字數在10萬字左右,據專業統計,人的閱讀速度平均500字/分鐘,僅僅讀完一份募集書都需要200分鐘(3小時+),中間如果再思考、檢查,審核文檔的時間將會更長。

業務組和質控組的審核壓力都非常大,且項目常常非常急,審核員審核的重點常常是風險類和經驗類的審核,導致像文字錯誤、單位錯誤、上下文一致性的低級錯誤會漏審。

達觀數據:AI驅動,3分鐘審核債券募集說明書常見5類錯誤

人工智能如何助力文檔審核工作?下面將結合達觀數據自研文檔智能審閱系統,助理金融領域從業專家的日常文檔審核工作。

募集書AI智能審核

首先結合業務審核點進行梳理。通常我們對文檔有錯字、漏字、疊字/詞、形近字、音近字、數字格式、表格單位等進行審核,這是對文檔的最基本的審核訴求。此外,因為財務科目之間有勾稽關係,需要對募集書中的財務勾稽關係進行審核,例如表表審核(同一科目在不同表中的一致性)、表內審核(表內合計)、表文審核(正文與表格的一致性審核)。

達觀數據:AI驅動,3分鐘審核債券募集說明書常見5類錯誤

AI智能文本審核流程

以募集說明書智能審核為例,AI智能審核流程如下:

文件解析

通過文檔處理引擎對募集書(word、pdf)進行解析,生成攜帶各種元信息的文本數據。常見的元信息包括:文件md5,原始文檔中每個字的字體、大小、座標,募集書的篇章、段落、句子結構信息、表格信息等,為文本語義分析提供支持。

文本預處理

主要含格式轉換、編碼轉換、文本歸一化處理。其中文本歸一化指對原始標註文本進行歸一化處理,包括去掉一些空白字符,大小寫數字、日期、全半角歸一等處理。例如原始文本中的日期描述有多種類型:“2020年2月1日”、“2020/2/1”、“2020-2-1”,機器為了計算和比較時方便,可以統一將日期歸一化成“2020-2-1”。

基礎語義分析

基於1、2步驟的處理結果對文本語義進行分析。主要有中文分詞、詞性標註、專有名詞識別、同義詞分析、句法語義分析、詞向量分析。

達觀數據:AI驅動,3分鐘審核債券募集說明書常見5類錯誤

其中專有名詞識別指對人名、機構名、地名、時間、日期、貨幣和百分比等名稱進行實體識別。募集書的專有名詞比較多,像財務披露內容中的每一個財務科目(營業收入、短期借款、流動資產等等),都屬於專有名詞範疇。

為了理清上下文的指代關係,需要有同義詞梳理,在募集書中假如發行人是達觀數據,那麼這篇募集書中,主體就是達觀數據,只要提到發行人就一定是指達觀數據,達觀數據一定就是指發行人。同義詞分析我們會結合業務專業知識、百度詞典、金山詞典、維基百科等進行提取和挖掘。

機器學習核心算法引擎

經過前三步的工作,拿到模型訓練的“素材”,例如表格結構、實體信息(科目、發行人、報告期等信息、段落結構、實體的上下文指代關係等,接下來就是模型加工處理。對文本特徵(n-gram + 深度學習算法等技術)進行特徵提取,結合業務規則,輸出文本抽取結果。

應用算法引擎

應用算法引擎泛指上層應用,它服務於業務需求。在募集書審核上,應用算法引擎就是指針對文字糾錯、表格糾錯、財務勾稽關係校驗功能進行算法設計和加工,每個功能點有獨立的算法和規則。再具象一點解釋就是,應用算法引擎輸出的結果就是審核結果,例如具體的某個錯字、錯詞、哪個表格單位有缺失、哪個財務科目上下文不一致等等。

下面結合在實際中比較常出現的錯誤舉例說明:

如下圖中,左側是募集書原文,右側是機器審核結果。募集書中描述的“發行人目前資產質量和流動性良好,營利能力和現金獲取能力較好,截至本......”其中“營利”一詞屬於同音字錯誤,應改為“盈利”。通過糾錯系統,可以自動識別錯誤,並高亮原文,機器給出修改建議“盈利”。

達觀數據:AI驅動,3分鐘審核債券募集說明書常見5類錯誤

編寫募集書過程中,可能因複製粘貼導致文中出現多字/疊字錯誤例子,如下圖。

達觀數據:AI驅動,3分鐘審核債券募集說明書常見5類錯誤

AI審核系統除對文字層面做糾錯審核外,還支持對錶格格式的規範性審核。例如表格單位重複、單位缺失,如下圖所示:

達觀數據:AI驅動,3分鐘審核債券募集說明書常見5類錯誤

達觀數據:AI驅動,3分鐘審核債券募集說明書常見5類錯誤

達觀數據:AI驅動,3分鐘審核債券募集說明書常見5類錯誤


財務披露是募集書中的重中之重,所以對財務勾稽關係的檢查也尤為重要。財務數字繁多,勾稽關係也規範化,可以用機器來自動審核。上下文同一科目有多處披露的情況要審核一致性、單表內合計的正確性、表與表之間同一科目一致性審核、表文同一科目的一致性審核、以及科目佔比、逐年變化趨勢等隱形勾稽關係,都可以用機器來規範化審核。


如下圖中,2015年發行人【應收賬款】科目,在原文中披露過3處,披露值分別是88,814.53萬元、8,814.53萬元、8,814.53萬元,這種錯誤導致的數值偏差會嚴重影響發行人財務數據披露真實性和有效性,人的肉眼很難發現這種上下文不一致的錯誤。

達觀數據:AI驅動,3分鐘審核債券募集說明書常見5類錯誤

達觀數據:AI驅動,3分鐘審核債券募集說明書常見5類錯誤

03AI審核結果可視化(AI平臺)

AI平臺就是最終產品形態。在這個平臺上,你上傳文件後,就可以得到文件的審核結果。在審核結果上,可以人工複核。平臺結合實際使用場景,設計了更多人性化的功能:

支持導出批註版募集書文件,方便線下修改錯誤;支持在線修改內容,導出修改好的募集書文件,方便直接使用;支持人工複核,修改機器誤判的case;可以接受和拒絕審核結果;支持新增錯誤項,方便人工複核時,發現了錯誤可以及時添加錯誤;支持API對接審核結果,方便與內部系統集成;支持移動端查看審核結果

達觀數據:AI驅動,3分鐘審核債券募集說明書常見5類錯誤

移動端實際效果圖

除此之外,智能審核在合同類文檔中也有較多應用,如對合同的一致性和必備條款的審核。

04合同類文檔審核

人審的方式:快速閱讀合同內容,挑選重點信息,如甲乙方、合同金額、賬號信息、違約條款、爭議解決、支付方式、維保期承諾等進行審核。審核點主要體現在以下幾個方面:

一致性審核

識別甲方名稱是否與正文表單中主體一致,識別合同附件中營業執照、報價單中的乙方名稱是否與合同正文乙方主體一致,合同金額大小寫是否一致,乙方賬戶的上下文一致性審核,若不一致需提示檢查乙方賬戶信息。對於合同中含附件營業執照、報價單等內容時,要校驗合同正文於合同附件中提到信息的一致性,例如營業執照中的公司名稱與乙方名稱是否一致等。

達觀數據:AI驅動,3分鐘審核債券募集說明書常見5類錯誤

必備條款審核

價格包含範圍說明,爭議解決方式說明,供應商資質保證,以及支付方式、質保期/維保期說明、違約責任、保密條款、乙方名稱、乙方賬戶、合同有效期等必備條款審核。必備條款的審核科認為是合同完備性審核。違約責任審核,例如:甲方付款逾期,逾期7天后方可計算違約金,如直接約定自逾期之日起算的,提示修改。違約金支付比例,如高於未支付比例0.1%/每天,提示調低;乙方賬戶為必備條款,若缺失應提示補充乙方賬戶信息。

以上審核點只是針對合同中常見的審核點,合同文檔相對一般幾頁到幾十頁不等。人工檢查合同時,會相當耗時耗力,工作量大時,甚至可能會導致漏審或錯審的情況,得不償失。

上述內容信息量較大,但審核流程非常簡單,對於系統應用者來說,實際使用AI智能文本審核系統時只有三個步驟:

上傳目標文件(如募集書、合同、招股書等);AI自動解析審核並將結果可視化;人工複核,導出修正後文件;

結束語

在文本處理場景中,達觀數據已積累大量的項目經驗和案例,但在人工智能這條路上我們認為還比較年輕,我們期待與更多的業務專家研究探討,希望通過人工智能來解決實際工作中的困難,讓機器協助人來做基礎工作,解放人力去做更高價值的事情。讓每個人的工作變得更高效、輕鬆。


分享到:


相關文章: