搜索引擎对页面的处理方法及排序

页面的处理

在页面收录过程中,搜索引擎已经抓取并存储了网站上的URL,接下来,搜索引擎会对所抓取的页面内容进行分析。

页面分析流程

在这个过程中,我们看到了两个“网页”。第一个“网页”指的是刚才搜索引擎已经收录的URL资源(即搜索蜘蛛抓取的原始页面),第二个“网页"指的是搜索引擎对关键词进行重组之后所对应的网页。搜索引擎对页面的分析由该原始页面正式开始。

提取正文信息

这里所提取的正文信息除了包含页面内容外,还包含页面的头部标签信息(Tile Keywords、Description) 等。

分词/拆词

提取完信息后,搜索引擎按照机械分词法和统计分词法将正文信息切分为若干关键词,这些关键词组成了关键词列表。我们大家在搜索引擎里查找内容时往往会输入关键词查找,这里搜索引擎的工作就是按照定的规则将内容划分为词,以便以后大家搜索。

建立关键字索引

上一步搜索引擎已经将正文内容切分为了若干关键词,这些关键词出现的位置、频率等是不同的,在这一步, 搜索引擎会将关键词逐一记录、 归类、建立索引,比如关键词出现的频率(建议2%-8%是比较合理的)。

关键词重组

搜索引擎为页面关键词建立索引后,再将这些关键词重新组合,以关键词的形式重新组建一个新的网页,这个网页上的关键词是唯一的, 全部不重复,比如,我们刚才在第三步时,A关键词出现了三次,在第四步,我们只记录A关键词1次,在重组网页后,A关键词再无重复。

至此,搜索引擎对页面的分析完成,在这一环节, 搜索引擎完成了对页面正文信息的提取、关键词的切分、关键词的索引以及搜索引擎角度上的网页重组。

页面排序

当搜索引擎完成了对页面的分析,将页面以唯一关键词的形式进行了重新组合, 接下来进入页面排序的环节。页面排序的环节实际上是由用户配合来完成的。当用户在搜索引擎中输入关键词进行在搜索时,搜索引擎便开始了页面排序的工作,我们知道,任意输入一个关键词就可以在搜索引擎中找到很多网页,这些网页的先后顺序是怎样产生的呢?影响页面排序的因素有哪些?

实际上,决定页面排序的因素很多,如页面相关性、链接权重及用户行为。

页面相关性

  1.关键词匹配度

  在搜索引擎中,一般情况下搜索引擎列表中都会包含我们所输入的关键词。当我们输入关键词进行查询时,搜索引擎会首先检查网页中是否有该关键词,这是基础条件。

  2.关键词词频(密度计算)

  搜索引擎为了能够有效地防止网站所有者恶意操控搜索结果,会去比对页面中关键词出现的频率与该网页词汇量的比例,以此来衡量页面中的关键字词频是否合理。过高或者过低都不好,最恰当的频率一般认为是2%~8%(业界公认最优关键词密度区间值)。

关键词密度是指该关键字出现的次数所占字符数与该网页总词汇量所占字符数的比例。

  3.关键词分布

  关键词在页面中出现的位置会影响页面的排序,一般认为页面权重的递减顺序是左上>右上>左>右>左下>右下;

  4.关键词的权重标签

  权重可以理解为重要性。权重标签如、、< em>、

等,标签内的文字不同于其他文字,搜索引擎会给予相应权重提升。

链接权重

  链接主要分为内部链接和外部链接两种形式,是在制作网站页面时用来关联信息的,用来告知用户所链接页面的重要程度,对于搜索引擎而言,则是用来证明页面与页面之间的关联性、重要性,比如一个页面的关联链接越多,搜索引擎会给予的重视度就越高。

内部链接

  网站内部页面与页面之间的相互链接关系,一般首页的权重最高,在同等情况下,如果两个网站的首页和内页进行比较,一般首页会排在内页前面。

  1.外部链接

  网站与站外页面之间的链接关系,通俗的说法叫作“外链”外链的质量、数量、相关性都会影响页面排序。

  2.默认权重分配

  搜索引擎将页面被抓取的日期作为一个参考因素,页面在单位时间内获得链接的数量越多、质量越高,则该页面的质量相对越高。

  3.用户行为

  用户对搜索结果的点击行为是衡量页面相关性的因素之一,是完善排序结果、提高排序结果质量的重要补充。

  用户行为主要包括搜索、点击两项行为:搜索是用户获得信息的过程,搜索引擎通过这个用户行为学习新词汇、丰富辞典;点击是指用户对搜索结果的反应,被点击的次数越多,说明越重要,权重越高(重点!!!!)。

注意:搜索引擎为避免马太效应,会对排在后面的链接进行点击权重补偿。