Google搜索算法調整,能理解句子,影響10%結果排序

谷歌目前正在對其核心搜索算法進行一項修改,該算法表示可能會改變多達10%的查詢結果的排名。

它基於谷歌研究人員開發的前沿自然語言處理(NLP)技術,並在過去10個月中應用於其搜索產品。

谷歌表示,本質上它是通過更好地理解單詞在句子中的相互關係來改善結果。

在谷歌的一個示例中,它的搜索算法能夠解析以下短語的含義:“Can you get medicine for someone pharmacy?”(你能幫某人去藥房買藥嗎?)

根據谷歌研究員兼搜索副總裁Pandu Nayak的說法,舊的谷歌搜索算法將這句話視為“一堆單詞”。因此,它會查看重要的單詞“medicine”和“pharmacy”,然後簡單地返回本地結果。

新算法能夠理解“給某人”這個詞的上下文,從而意識到這是一個關於您是否可以提取其他人的處方的問題,並且它返回了正確的結果。

之前,谷歌算法將所有查詢視為“一堆單詞”

調整後的算法基於BERT,它代表“Transformer的雙向編碼器表示”。這個縮略語的每個詞在NLP中都是一個術語,但要點是,BERT不是把一個句子當作一袋單詞來對待,而是把句子中的所有單詞作為一個整體來看待。這樣做可以讓它意識到“給某人”這個詞不應該被丟棄,而是對句子的意義至關重要。

BERT意識到自己應該注意這些詞的方式基本上是通過一Mad Libs的遊戲中自我學習的。谷歌收集了一個英語句子的語料庫,隨機刪除15%的單詞,然後BERT開始研究這些單詞應該是什麼。根據谷歌高級研究員和研究高級副總裁Jeff Dean的說法,隨著時間的推移,這種訓練在使NLP模型“理解”上下文方面非常有效。

谷歌引用的另一個例子是“parking on a hill with no curb”。“no”這個詞對於這個查詢是必不可少的,在實現BERT搜索之前,谷歌的算法忽略了這一點。

Google搜索算法調整,能理解句子,影響10%結果排序

谷歌表示,在過去的幾天裡,他們已經推出了新的算法,這應該會影響到美國10%的英語搜索查詢。其他語言和國家將在以後討論。

對搜索的所有更改都要經過一系列測試,以確保它們確實能夠改進結果。其中一項測試使用了谷歌的核心人員,他們通過對搜索結果的質量進行評級來訓練公司的算法——谷歌還進行了live live A/B測試。

並不是每個查詢都會受到BERT的影響,它只是谷歌用來對搜索結果排序的許多不同工具中的最新一個。它們是如何協同工作的是一個謎。谷歌故意讓其中一些過程保持神秘,以防止垃圾郵件發送者利用其系統。但另一個重要的原因也很神秘:當計算機使用機器學習技術來做決定時,很難知道它為什麼會做出這些選擇。

現在,BERT影響所有谷歌搜索結果的10%

機器學習的所謂“黑盒”是一個問題,因為如果結果在某種程度上是錯誤的,就很難診斷出原因。谷歌表示,他們已經努力確保將BERT添加到搜索算法中不會增加偏差——這是機器學習的一個常見問題,因為機器學習的訓練模型本身就存在偏差。由於BERT是在一個巨大的英語句子語料庫中接受訓練的,這個語料庫也有固有的偏見,這是一個值得關注的問題。

該公司還表示,它預計自己的算法將在多大程度上或在什麼地方引導流量方面不會有重大變化,至少對大型發佈商來說是這樣。只要谷歌的搜索算法出現變化,整個網絡都會關注。由於谷歌的搜索排名變化,一些公司生死未卜。

每個通過網絡流量賺錢的人都絕對應該注意這一點。當談到搜索結果的質量時,Payak說“這是最大的一個…這是我們在過去5年裡所經歷的最積極的變化,可能也是自一開始以來最大的變化之一。”


分享到:


相關文章: