网络蜘蛛抓取到网页数据后,由于数据量过于庞大,是不能直接进行索引服务的,还要做大量的预处理工作,如结构化网页、分词、去停止词、降噪、去重、建立索引数据库、链接分析和数据整合等。
1.什么是结构化网页
网络蜘蛛抓取的网页数据中,除了用户浏览器上可以看到的可见文字外,还包含了HTML标签、JAVASCRIPT程序、导航、友情链接、广告等无法用于排名计算的内容。结构化网页就是从网页数据中去除这些内容,保留可以用于排名的正文文本、meta标签、锚文本、图片视频的注释等内容。
比如下面这段HTML代码
<div id="baike-title">
<h1>
<span class="title">我的文章记载</span>
</h1>
</div>
在经过结构化网页后,剩下的用于排名的文字为“我的文章记载”
2.分词
分词是中文搜索引擎所持有的处理操作,这是因为英文等语言的单词与单词之间是有空格分隔的,而中文的词与词之间则是没有任何分隔符,所以搜索引擎必须首先将一句话分解成若干个词语。比如“我的文章记载”将被分解成为“我的”“文章”“记载”
分词的方法有很多,主要基于字典的分词法、基于理解的分词法和基于统计的分词法三种。
目前的主流搜索引擎通常结合这三种方法,构成一套分词系统。