中國的自然語言處理領域的人工智慧公司

中國的自然語言處理領域的人工智能公司

龍泉寺以前並不太出名,它坐落在北京西山鳳凰嶺山腳下,始建於遼朝應歷初年。

寺廟山門前有兩棵遒勁的翠柏拔地而起,據說已經有600多歲,走進寺內,可以看到粗壯挺拔的古銀杏樹,據說也已經1000多歲。

這裡隱居著一批世外高人,他們發明了一個會說話的機器僧人“賢二”。

如果你問賢二:“賢二,我心情不好怎麼辦呢?”

賢二可能會說:“試著讀一些好書吧。”

賢二是全球首個人工智能“出家人”。身高60釐米,穿著黃色僧袍,特長是誦經、對話,甚至還會唱歌,尤其難能可貴的是他還會賣萌。

賢二為什麼能與人對話呢?原來,它應用了最新的人工智能自然語言處理技術。

什麼是自然語言處理?

正如哥德巴赫猜想是數論皇冠上的明珠,微軟創始人比爾·蓋茨曾經如是說,“自然語言理解是人工智能領域皇冠上的明珠”。

比爾·蓋茨所說的自然語言理解是自然語言處理的一個重要組成部分。自然語言處理的英文是Natural Language Processing,一般被簡寫為NLP,它實際上包括了三個方面:語音識別、自然語言理解與語音合成(有一些人把語音識別作為自然語言處理之外的技術,在本文中,我們將語音識別也包含在自然語言處理的技術範疇之內)。

霍金不會說話,但英特爾公司給他定製的電腦輪椅可以幫他說話,這背後所利用的技術就是語音合成技術。語音合成技術可以把文本信息轉化為語音信息。當然了,霍金的電腦輪椅設備是沒有人工智能的(也就是說語音合成並不一定是人工智能,關鍵還是要看機器背後的算法)。

科學家們已經可以讓電腦像人那樣自主說話,這個時候電腦就具有人工智能的語音合成。比如微軟小冰,比如 “賢二”機器人和尚,這些會說話的機器人都具有人工智能。

前面已經說過,自然語言處理包括了三個方面:語音識別、自然語言理解與語音合成。這三方面分別解決了三個問題:聽清楚別人在說什麼,理解別人說的意思,根據聽到的與理解到的對話內容回答別人的問題。

自然語言處理是工業界與學術界都關注的人工智能領域,這一領域的突破性發展與深度學習算法的成熟有直接的關係。加拿大多倫多大學的辛頓是深度學習的先驅,他和學生於2006年發表在《科學》上的文章提出了降維與逐層預訓練的方法,這使得深度學習成為可能。2009年,微軟亞洲研究院的鄧力小組開始與辛頓合作,用深度學習加上隱馬爾科夫鏈模型開發了實用的語音識別與同聲翻譯系統。

從學術界來說,中國大陸地區除了微軟亞洲研究院,還有哪些研究機構設置了自然語言處理的實驗室呢?據《互聯網週刊》瞭解,清華大學自然語言處理與社會人文計算實驗室、北京大學計算機科學技術研究所語言計算與互聯網挖掘研究室、哈工大機器智能技術與自然語言處理實驗室、中科院自動化研究所語音語言技術研究組、南京大學自然語言處理研究組、復旦大學自然語言處理研究組等都對自然語言處理有深入的研究。

一般來講,自然語言處理的步驟主要分為6步:1、獲取原始文本;2、對文本進行預處理; 3、分詞:將文章按詞組分開;4、詞法分析:對名詞、動詞、形容詞、副詞、介詞進行定性; 5、語法分析:分析主語、謂語、賓語、定語、狀語、補語等句子元素;6、語義分析:將句子的正確含義表達出來。

自然語言處理的發展歷史

20世紀的80年代,自然語言處理的語音識別方面開始取得了突破性的進展,當時以李開復為代表的人工智能科學家摒棄了符號主義學派的方法,選擇用統計模型來破解語音識別的難題,將語音識別的準確率提高到了一個全新的高度。但當時這個方法離真正的實用化還是有很遠的距離。因此,在當時並沒有誕生出擅長對話的機器人。

於是,科學家開始發展新的自然語言處理的算法。這裡麵包括Word2vec、CRF、LDA,LSA、SVD等。

2010年以後,一種更加有效的人工智能算法——深度神經網絡重新打造了語音識別的算法框架。在這個過程中,以科大訊飛為代表的語音識別公司開始崛起,其開發的語音識別產品已經開始進入實用化的階段。

2013年,谷歌的語音識別系統對英語單詞的識別錯誤率已經下降到23%左右。到了2015年,谷歌的語音識別系統再次刷新了記錄,利用深度學習神經網絡,它們將單詞的識別錯誤率下降到了8%。

在這個過程中,微軟也不甘落後,在2016年,微軟的語音識別系統成功地將單詞識別錯誤率下降到了6.3%。

到了今天,語音識別技術作為自然語言處理的一個側面已經非常成熟。比如科大訊飛的語音輸入法可以幫助我們在一分鐘內完成400個漢字的輸入。人工智能在自然語言處理上已經開始實現產業化落地,成為真正能對人們的日常生產與生活產生價值的新工具。

自然語言處理的龍頭企業

科大訊飛創辦於1999年,目前已經成為中國最有名的自然語言處理的龍頭企業,它於2008年成為中國人工智能語音產業界的第一家上市公司。在2016年阿爾法狗打敗李世石之後掀起的人工智能熱潮中,科大訊飛的股價也是水漲船高,得到了資本市場的瘋狂追捧。2017年,隨著資本大量湧入與相關科技政策的不斷加持,科大訊飛股價一度創下歷史新高74.76元/股,市值突破千億大關。

但是,看起來如此幸運的科大訊飛,在成立的最初幾年裡,也面臨前所未有的運營壓力。

科大訊飛的相關領導曾經這樣描述當年的困境:“我們剛開始創業的時候是挺難的,沒有錢,沒有市場,也沒有資源背景,所以是很難的草根創業。最開始大家租了個房,沒白天沒黑夜地幹。最困難的時候是什麼呢?快過年了,發不出工資,只能以個人的名義去借錢渡過難關。公司從成立到盈虧平衡我們用了5年的時間,這五年我們天天在投入,卻不見產出。”

由此可見,作為人工智能時代的弄潮兒,科大訊飛能有今天的輝煌,離不開當年的艱苦付出。

要理解這一段歷史,其實還需要理解自然語言處理背後的人工智能算法的發展過程。其實在科大訊飛的早年歲月,人工智能自然語言處理的算法並不成熟。從這個意義上來說,科大訊飛是一個早產兒。只有到了2006年,深度學習的創始人傑弗裡.辛頓及合作者發表了一個里程碑的文章《一種深度置信網絡的快速學習算法》以後,這一論文宣告了深度學習時代的真正來臨。只有在深度學習算法的指引下,人工智能才真正進入了實用化階段。

因此,2006年是人工智能發展的分水嶺。從這個意義上來說,1999年就成立的科大訊飛出生的太早了。

科大訊飛在漫長的時間賽道上長跑,通過自主研發不斷更新技術。從國際上來看,根據Research and Markets報告,在全球語音市場,谷歌、微軟、蘋果和科大訊飛是“四大高手”。它們在全球市場份額分別為20.7%、13.4%、12.9%和6.7%,從這個意義上來說,科大訊飛在自然語言處理上的專項能力是非常傑出的,確實已經超越了國內的其他大公司。

在終端消費者應用方面,科大訊飛的財報顯示,目前訊飛輸入法總用戶發展至5.6億;訊飛翻譯機銷售近數十萬臺,用戶已在覆蓋全球130個國家。

中國的自然語言處理領域的人工智能公司

中國還有哪些自然語言處理的代表性公司?

自然語言處理的應用前景相當廣泛,它可以進行很多工作,比如機器翻譯,典型的機器翻譯有百度翻譯、谷歌翻譯等。自然語言處理還可以用到信息檢索和過濾,比如在大流量的信息中尋找關鍵詞,在網絡瞬時檢查敏感文字信息。

形形色色的應用造就了形形色色的企業,《互聯網週刊》整理了自然語言處理領域的代表性公司。

目前,專注於自然語言處理的公司相當多,外國大公司有谷歌、蘋果等,在國內也湧現了科大訊飛、百度、雲知聲與思必馳等著名企業。而且這些企業都有學院派的背景,比如在蘇州的思必馳的創始人俞凱本身就是英國劍橋大學的博士,後來成為上海交通大學的教授,他的研究團隊裡就有很多來自上海交通大學的博士生。在俞凱教授的推動下,思必馳與上海交通大學成立了Speech Lab聯合語音實驗室,側重前沿語音技術的研發及轉化,取得較多技術成果,例如,他們推出的VDCNN抗噪算法模型,在噪聲環境語音識別的業界基準庫Aurora4上,取得了7.09%的詞錯誤率,相比於世界其他機構目前10%左右的最好結果,有一個大幅度的提高;而他們開發的PSD新型解碼框架則使語音識別系統的速度累積提高20-30倍,內存下降50%以上。產學研一體化模式,為思必馳進一步拓展市場起到了極大作用。

目前的自然語言處理的公司很多都與高校結盟進行創新發展,雖然有高等學校的智力支持,但中文語言的處理比起西方語言更加難以處理。其中最令人費解的是多語義現象。

比如假設在兩場籃球比賽中,中國隊都打敗了美國隊。在中文報道中可以分別使用“中國隊大勝美國隊”、“中國隊大敗美國隊”來作為標題。這其實是同一個意思,但人工智能自然語言處理則很容易把這個語義分析錯。

再舉一個例子,比如“今天下雨路滑,我騎車差點翻倒,幸虧我一把把把把住了”。在這句話中,出現了很多“把”字,人工智能如果不瞭解其中有一個“把”字是“車把”的意思,也是很難理解這句話的。

因此,在自然語言處理方面,還有許多的問題需要解決,比如訓練數據的缺乏、成語俗語方言的精確處理。而在這裡,其實算法還是最關鍵的。

但是,技術的進步是不可阻擋的滾滾潮流,中國在這方面已經做得相當不錯。科大訊飛的董事長劉慶峰認為,科大迅飛在語音合成、語音識別、口語評測、語言翻譯、聲紋識別、人臉識別、自然語言處理等智能語音與人工智能核心技術上已經達到了國際最高水平。

將來隨著自然語言處理技術越來越成熟,計算機能夠更加正確理解人類的語言,相關的人工智能產品將不斷落地,像“賢二和尚”這樣的聊天機器人一定會變得越來越智能。


分享到:


相關文章: