网页中的内容经过分词、去停止词、降噪和去重以后,就可以得到能反映页面主体内容的一个关键词的合集。搜索引擎会记录每一个关键词在页面上出现的频率、次数、格式(如标题、加粗、锚文本等)、位置等信息,并且根据这些信息计算出每一个关键词的重要性,再按照重要性对关键词进行排序,然后将页面及其对应的关键词构建为正排索引并储存到索引数据库。

链接分析

与在网上购物一样,我们不仅要看商家对产品的介绍,还要看消费者对产品的评论。搜索引擎在对网页进行排序时,除了考虑网页本身的关键词密度和关键词位置外,还需要引入网页以为的标准来衡量网页。在这些网页以外的标准中,链接分析是最为重要的,搜索引擎会分析链接到这个网页的所有外部链接,这些外部链接的数量和质量能反映该页面的质量,以及和关键词的相关度。

由于互联网中的网页数量非常巨大,这些网页之间的链接关系又时刻处于更新中,因此链接分析耗时较为长,所以搜索引擎在进行倒排索引前要先完成链接分析。

数据整合

除了html文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如pdf/word/wps/xls/ppt/txt等文件类型。用户在搜索结果中也经常会看到这些文件类型。

但图片、视频、flash这类非文字的内容,搜索引擎不能直接进行处理,只能通过其说明性文本进行处理。

不同格式的数据被分别存储,但是搜索引擎在建立索引以及排序时候,往往又会联系与数据相关的内容,以判断其相关性和重要性,然后最终形成一个有利于搜索排名的检索数据库。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。[本站由 WEEX唯客交易所(官网www.weex.com)提供赞助]