网页中的内容经过分词、去停止词、降噪和去重以后,就可以得到能反映页面主体内容的一个关键词的合集。搜索引擎会记录每一个关键词在页面上出现的频率、次数、格式(如标题、加粗、锚文本等)、位置等信息,并且根据这些信息计算出每一个关键词的重要性,再按照重要性对关键词进行排序,然后将页面及其对应的关键词构建为正排索引并储存到索引数据库。
链接分析
与在网上购物一样,我们不仅要看商家对产品的介绍,还要看消费者对产品的评论。搜索引擎在对网页进行排序时,除了考虑网页本身的关键词密度和关键词位置外,还需要引入网页以为的标准来衡量网页。在这些网页以外的标准中,链接分析是最为重要的,搜索引擎会分析链接到这个网页的所有外部链接,这些外部链接的数量和质量能反映该页面的质量,以及和关键词的相关度。
由于互联网中的网页数量非常巨大,这些网页之间的链接关系又时刻处于更新中,因此链接分析耗时较为长,所以搜索引擎在进行倒排索引前要先完成链接分析。
数据整合
除了html文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如pdf/word/wps/xls/ppt/txt等文件类型。用户在搜索结果中也经常会看到这些文件类型。
但图片、视频、flash这类非文字的内容,搜索引擎不能直接进行处理,只能通过其说明性文本进行处理。
不同格式的数据被分别存储,但是搜索引擎在建立索引以及排序时候,往往又会联系与数据相关的内容,以判断其相关性和重要性,然后最终形成一个有利于搜索排名的检索数据库。