网络蜘蛛抓取到网页数据后,由于数据量过于庞大,是不能直接进行索引服务的,还要做大量的预处理工作,如结构化网页、分词、去停止词、降噪、去重、建立索引数据库、链接分析和数据整合等。

1.什么是结构化网页

网络蜘蛛抓取的网页数据中,除了用户浏览器上可以看到的可见文字外,还包含了HTML标签、JAVASCRIPT程序、导航、友情链接、广告等无法用于排名计算的内容。结构化网页就是从网页数据中去除这些内容,保留可以用于排名的正文文本、meta标签、锚文本、图片视频的注释等内容。

比如下面这段HTML代码

<div id="baike-title">
<h1>
<span class="title">我的文章记载</span>
</h1>
</div>

在经过结构化网页后,剩下的用于排名的文字为“我的文章记载”

2.分词

分词是中文搜索引擎所持有的处理操作,这是因为英文等语言的单词与单词之间是有空格分隔的,而中文的词与词之间则是没有任何分隔符,所以搜索引擎必须首先将一句话分解成若干个词语。比如“我的文章记载”将被分解成为“我的”“文章”“记载”

分词的方法有很多,主要基于字典的分词法、基于理解的分词法和基于统计的分词法三种。

目前的主流搜索引擎通常结合这三种方法,构成一套分词系统。

 

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。[本站由 WEEX唯客交易所(官网www.weex.com)提供赞助]