為什麼Google能在機器翻譯領域一躍成為領軍企業?

從某種意義上講,2005年是大數據元年,雖然大部分人可能感受不到數據帶來的變化,但是一項科研成果卻讓全世界從事機器翻譯的人感到震驚,那就是之前在機器翻譯領域從來沒有技術積累、不為人所知的Google以巨大的優勢打敗了全世界所有機器翻譯研究團隊,一躍成為這個領域的領頭羊。

為什麼Google能在機器翻譯領域一躍成為領軍企業?

為什麼Google能在機器翻譯領域一躍成為領軍企業,最重要的原因便是Google花重金請到了當時世界上水平最高的機器翻譯專家佛朗茲·奧科(Franz Och)博士。

奧科在研究如何使得機器翻譯更加準確時,用了比其他研究團隊多幾千倍甚至上萬倍的數據。其實,在和自然語言處理有關的領域,科學家們都清楚數據的重要性,但是在過去,不同研究團隊之間能使用的數據通常只相差兩三倍,對結果即使有些影響,也差不了很多。

為什麼Google能在機器翻譯領域一躍成為領軍企業?

但是,當奧科用了上萬倍的數據時,兩邊的積累就導致了質變的發生,這一過程就是數據化。

奧科能訓練出一個六元模型,而當時大部分研究團隊的數據量只夠訓練三元模型。簡單地講,一個好的三元模型可以準確地構造英語句子中的短語和簡單的句子之間的搭配,而六元模型則可以構造整個從句和複雜的句子成分之間的搭配。

為什麼Google能在機器翻譯領域一躍成為領軍企業?


分享到:


相關文章: