搜索引擎建好索引数据库后,就可以为用户提供检索服务了。当用户输入一个搜索关键词后,搜索引擎首先会处理搜索关键词,将其进行过滤和拆分,然后从索引数据库中将与之匹配的页面提取出来,再通过不通的维度对页面的得分进行综合排序,最后再通过收集用户搜索数据对结果进行优化,此时就可以得到最终的搜索结果。

1.处理搜索关键词

和处理页面的关键词一样,对用户输入的搜索关键词也需要进行拆分和降噪等操作,将其拆分为关键词租,并剔除对搜索结果影响不大的词。如输入“衣服缩水了怎么办啊”,搜索引擎就会删除其中的“了”和“啊”,然后将剩余的文字拆分为“衣服”“缩水”“怎么办”3个关键词

2.提取页面

确定好关键词后,搜索引擎就会从检索数据库中提取出包含有这些关键词的页面,但是这些页面并不会全部参与排名。因为搜索结果一般会有几十万甚至上千万,全部进行排名会使计算量非常大、速度非常慢,而且用户通常也会查看前面几页的结果,所以搜索引擎通常不会显示所有的搜索结果,只会显示权重最高的几百条搜索结果。

3.综合排序

搜索引擎会根据不同维度的得分对参与排名的页面进行综合排序,以得到最终的搜索结果。

综合排序主要包括以下6个方面的内容。

相关性

相关性指的是页面内容与搜索关键词匹配程度,如页面所包含搜索关键词的个数,这些关键词出现的位置,以及外部页面指向页面所使用的锚文本等能体现页面内容与关键词的匹配程度的指标。

权威性

权威更高的网站提供的内容更真实可靠,所以其网页排名越靠前。

时效性

时效性是指网页是否为新出现的页面,而且页面内容是新鲜的。目前,时效性在搜索引擎的排序越来越重要。

丰富度

丰富度指网页内容的丰富程度。如页面内容很丰富,那么它不仅可以满足用户的单一需求,还可以满足用户的眼神需求。

加权

加权是指通过人工凡事提高某些页面(如官方网站、特殊通道页面等)的排名。

降权

降权是指降低有作弊嫌疑的网页的排名的做法。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。[本站由 WEEX唯客交易所(官网www.weex.com,备用域名www.weex.sh)提供赞助]