關於自然語言處理方面有哪些可以入手的項目?

辰溪0502


自然語言處理(NLP)最適合入門的項目就是中文分詞。

分詞是一個古老問題,也是一個直到現在也沒有解決特別好的問題。Python開源的結巴分詞庫,其實效果很一般。我們公司有團隊花費很多資源造了輪子,做的效果比結巴好很多,可是依然不是顛覆性的優化(像bert用於nlp可稱作顛覆性的優化)。

中文分詞領域入門容易,非常適合用來上手。但做好難,舉個栗子:和尚未結婚的,到底是分成“和尚 未結婚的”,還是“和 尚未結婚的”。人根據上下文看一眼就知道,但是nlp要用一個模型來表達出上下文和當前句子,來確定最合適的分法,很難做好。

中文分詞在很多技術中都有用到,比如語音識別 ocr文字識別 翻譯 文本轉語音等,商用化的系統都會用到分詞技術做語言模型。

所以從中文分詞入坑自然語言處理是最容易入手,前景也不錯的項目。


從零開始刷力扣


一個非常好的問題。我是工作多年的Web應用架構師,來回答一下這個問題。歡迎關注我,瞭解更多IT專業知識。


補充一下AI自然語言處理應用的開發,幾大雲服務商都開放了人工智能開發平臺,使得基於雲服務開發AI應用更加方便。


基於語音識別技術,可以開發語音轉換文字工具


基於語音合成技術,可以開發AI聊天機器人


等等。。。


急速馬力快de源碼客


標註、語義分析、分詞


分享到:


相關文章: