BERT加持!谷歌搜索算法大调整,影响10%结果排序

BERT加持!谷歌搜索算法大调整,影响10%结果排序

谷歌目前正在对其核心搜索算法进行一项修改,该算法表示可能会改变多达10%的查询结果的排名。

它基于谷歌研究人员开发的前沿自然语言处理(NLP)技术,并在过去10个月中应用于其搜索产品。

谷歌表示,本质上它是通过更好地理解单词在句子中的相互关系来改善结果。

在谷歌的一个示例中,它的搜索算法能够解析以下短语的含义:“Can you get medicine for someone pharmacy?”(你能帮某人去药房买药吗?)

根据谷歌研究员兼搜索副总裁Pandu Nayak的说法,旧的谷歌搜索算法将这句话视为“一堆单词”。因此,它会查看重要的单词“medicine”和“pharmacy”,然后简单地返回本地结果。

新算法能够理解“给某人”这个词的上下文,从而意识到这是一个关于您是否可以提取其他人的处方的问题,并且它返回了正确的结果。

之前,谷歌算法将所有查询视为“一堆单词”

调整后的算法基于BERT,它代表“Transformer的双向编码器表示”。这个缩略语的每个词在NLP中都是一个术语,但要点是,BERT不是把一个句子当作一袋单词来对待,而是把句子中的所有单词作为一个整体来看待。这样做可以让它意识到“给某人”这个词不应该被丢弃,而是对句子的意义至关重要。

BERT意识到自己应该注意这些词的方式基本上是通过一Mad Libs的游戏中自我学习的。谷歌收集了一个英语句子的语料库,随机删除15%的单词,然后BERT开始研究这些单词应该是什么。根据谷歌高级研究员和研究高级副总裁Jeff Dean的说法,随着时间的推移,这种训练在使NLP模型“理解”上下文方面非常有效。

谷歌引用的另一个例子是“parking on a hill with no curb”。“no”这个词对于这个查询是必不可少的,在实现BERT搜索之前,谷歌的算法忽略了这一点。

BERT加持!谷歌搜索算法大调整,影响10%结果排序

谷歌表示,在过去的几天里,他们已经推出了新的算法,这应该会影响到美国10%的英语搜索查询。其他语言和国家将在以后讨论。

对搜索的所有更改都要经过一系列测试,以确保它们确实能够改进结果。其中一项测试使用了谷歌的核心人员,他们通过对搜索结果的质量进行评级来训练公司的算法——谷歌还进行了live live A/B测试。

并不是每个查询都会受到BERT的影响,它只是谷歌用来对搜索结果排序的许多不同工具中的最新一个。它们是如何协同工作的是一个谜。谷歌故意让其中一些过程保持神秘,以防止垃圾邮件发送者利用其系统。但另一个重要的原因也很神秘:当计算机使用机器学习技术来做决定时,很难知道它为什么会做出这些选择。

现在,BERT影响所有谷歌搜索结果的10%

机器学习的所谓“黑盒”是一个问题,因为如果结果在某种程度上是错误的,就很难诊断出原因。谷歌表示,他们已经努力确保将BERT添加到搜索算法中不会增加偏差——这是机器学习的一个常见问题,因为机器学习的训练模型本身就存在偏差。由于BERT是在一个巨大的英语句子语料库中接受训练的,这个语料库也有固有的偏见,这是一个值得关注的问题。

该公司还表示,它预计自己的算法将在多大程度上或在什么地方引导流量方面不会有重大变化,至少对大型发布商来说是这样。只要谷歌的搜索算法出现变化,整个网络都会关注。由于谷歌的搜索排名变化,一些公司生死未卜。

每个通过网络流量赚钱的人都绝对应该注意这一点。当谈到搜索结果的质量时,Payak说“这是最大的一个…这是我们在过去5年里所经历的最积极的变化,可能也是自一开始以来最大的变化之一。”

参考链接:

https://www.theverge.com/2019/10/25/20931657/google-bert-search-context-algorithm-change-10-percent-langauge

福利:关注本公众号(ID:turingtopia)

特别推荐

BERT加持!谷歌搜索算法大调整,影响10%结果排序

如果您对工业互联网、数据中台、精准营销、智能推荐、人脸识别等业务经验和AI应用感兴趣,就来@派小僧 吧!

一线专家给你:

最全面的趟坑总结;

最前沿的实践经验;

最新落地的行业应用案例。

立即关注,一网打尽!

(ID:python_daydayup)

《云原生下数据治理的微服务架构》:

https://mp.weixin.qq.com/s/CyItUzXITwR3LHBNFOTQZg


分享到:


相關文章: