去停止词
无论是中文还是英文,网页内容中都会出现一线频率很高,但是却对页面内容没有任何影响的词汇,例如中文的“啊”“哈”“呀”,英文的a/am/the等。这些词被称之为停止词。因为它们对句子的主要意思没什么影响,所以搜索引擎会去掉这些词。这样就可以使索引的数据更为突出,也可以减少一些无所谓的计算量。
降噪
绝大多数的网页上还有一部分与网页主题没有什么关系的内容,例如版权声明文字、导航条、广告等。如博客网页导航栏中的“文章分类”“历史存档”等导航内容,但是页面本身与“分类”“历史”这些词没有任何关系。
这些与网页主题完全不相关的内容都属于噪声,会对页面主题产生分散影响。搜索引擎需要识别并消除这些噪声,其基本方法是:根据html标签对页面分块,区分出页头、导航,正文、页脚、广告等区域,剔除无关区域的内容,剩下的就是页面主题内容。
去重
互联网中存在大量的重复内容,这些重复内容主要是由于网站之间的互相转载以及使用网站页模板产生的。如果用户的搜索结果中包含了大量相同的内容,则说明用户体验太差,因此需要搜索引擎只返回其中的一篇,这就要搜索引擎在索引前对重复的内容进行识别和删除,这个过程就成为“去重”。
去重的方法是:计算页面的特征关键词指纹。其具体操作方法是从页面主体内容中选取出现频率最高的一部分关键词,然后计算这些关键词内容的数字指纹,如果两个页面的关键词指纹相同就会被判定为重复内容,搜索引擎将不会收录。
简单的增加“的”“得”“地”,或者调段落顺序,是不能逃过搜索引擎的去重算法的,因为这样的操作无法改变文章的特征关键词。