想當NLP數據科學家?先對這些“窘境”做好心理準備

全文共2044字,預計學習時長

6分鐘

想當NLP數據科學家?先對這些“窘境”做好心理準備


近期,Tractica的報告顯示,人工智能支持的NLP軟件市場預計將從2016年的1.36億美元增加到2025年的54億美元。10年內增長約40倍!


另一方面,《計算語言學》雜誌的贊助者,計算語言學協會(ACL)舉辦的年度會議吸引了許多NLP科學家提交他們的成果。與2018年相比,2019年的ACL僅提交的論文就增加了75%。


看到這裡,你可能會想——哇!在不久的將來,我要努力成為一名NLP數據科學家!我愛NLP!


但這是否意味著,僅因為這一領域前途光明就該進入這一領域?


事實是,你讀到的一切都表明NLP的未來是光明的,是偉大的。但是,在完全瞭解NLP數據科學家的工作之前,不應該進入這個領域。


本文將分享NLP數據科學家工作的真相。希望你仔細瞭解實際情況,以便更好地決定是否進入NLP領域。


NLP是什麼?


簡而言之,它涉及到分析人類自然語言和表達的計算技術。


嗯…這是什麼意思呢?


這意味著需要處理不同形式的文本。以下是NLP數據科學家有時會面臨的一些情況。


情況1


看看下面的推文。

想當NLP數據科學家?先對這些“窘境”做好心理準備


假設你正在分析這段文字。目的是理解文本。假設你確定主語是“mypants”,動詞是“missing”。那麼,你從這條推文中得到了什麼信息?


“褲子不見了。”…??!


這顯然不能代表推文的意思,對吧?


情況2


假設你正在執行基於方面的情感分析,包括情感(積極的或消極的)和目標(意見)。


例如,“餐廳提供的服務很好”。其中,方面是“服務”,情感是“積極的”。


這為什麼很重要?因為餐廳老闆不僅知道顧客有好的體驗,而且知道自己提供了良好的服務。


假設在數據集中看到了這段文字。


“Thisvacuum cleaner really sucks.(這個吸塵器真棒。)”


這裡的對象是吸塵器,但情感是什麼呢?“suck”這個詞通常代表一種負面情緒,但與吸塵器搭配使用時,它的意思可能會發生變化。


吸塵器通過產生吸力來清潔。所以這裡使用“suck”其實是在描述這個吸塵器很好用,不是嗎?


情況3


考慮一下更復雜的情況。例如:


“嘿,哥們兒,去哪兒吃好吃的啊?”


這個句子的意思是食物很好吃嗎?不,實際上這只是一個問句。


想當NLP數據科學家?先對這些“窘境”做好心理準備


情況4


另一種情況是處理文本時不知道它的意思。例如,你懂得英語、漢語和馬來語。但公司正在進行日語文本分類項目。因此,在試圖理解模型出了什麼問題時,就會遇到困難。


解決方案之一是使用谷歌翻譯將句子轉換成你知道的語言。然而,谷歌翻譯並不完美。某些情況下它所提供的翻譯是沒有意義的,這時就需要諮詢母語是日語的人。


情況5


假設你在處理一個文本分類任務。目標是檢測一個項目名稱是屬於葡萄酒還是果汁。


也許你會考慮使用關鍵字列表作為區分特徵。在花了幾個小時尋找一些有用的關鍵字來進行區分後,以下是你的想法:


首先,為每個類提供一組關鍵字列表。例如,葡萄酒類的關鍵字列表是['wine ', 'grape juice '],而果汁類的關鍵字列表是['juice ']。如果在項目名稱中找到了關鍵字列表中的元素,該元素就會作為特徵輸入到模型中。


然而,該模型的準確率低於基準準確率(90%)。


該怎麼做呢?耐心檢查每一個錯誤分類的測試數據。你震驚於發現葡萄酒有許多拼寫錯誤:wne、wyne等等。因此,必須更新列表,或者對訓練數據集執行某些類型的檢查,以期提高準確性。


然而,這還沒有結束。精確度確實提高了,但你仍然對結果不滿意。再一次仔細觀察錯誤分類的數據,會發現這個有趣的項目名稱:


“發酵葡萄汁製成的黑皮諾”


從名稱中提取的關鍵字是“juice”,因此模型將其分類為果汁。這是錯誤的!黑皮諾是紅葡萄酒,因此應歸類為葡萄酒!


想當NLP數據科學家?先對這些“窘境”做好心理準備


我知道你已經聽過一千遍了,但這是真的——努力總有回報。如果你想成為優秀的人,必須練習,練習,再練習。如果你不喜歡什麼,那就不要去做。

——雷·布拉德伯利(RayBradbury)


文本既有趣又令人厭煩。因此,絕大多數時間裡,NLP數據科學家都在看著這些數據絞盡腦汁,想盡辦法使模型理解上下文。


無論是在執行分析、特徵工程還是模型改進,都應該用80%的時間來查看文本數據。因此,要確保能正確理解數據,並且預見將來可能發生的潛在情況。


如果你認為NLP數據科學家只是調用sklearn中的.fit(),小芯建議你考慮換個方向。


想當NLP數據科學家?先對這些“窘境”做好心理準備

我們一起分享AI學習與發展的乾貨


分享到:


相關文章: