seo是什么意思之网页的处理-卓创源码网

网络蜘蛛抓取到网页数据后，由于数据量过于庞大，是不能直接进行索引服务的，还要做大量的预处理工作，如结构化网页、分词、去停止词、降噪、去重、建立索引数据库、链接分析和数据整合等。

1.什么是结构化网页

网络蜘蛛抓取的网页数据中，除了用户浏览器上可以看到的可见文字外，还包含了HTML标签、JAVASCRIPT程序、导航、友情链接、广告等无法用于排名计算的内容。结构化网页就是从网页数据中去除这些内容，保留可以用于排名的正文文本、meta标签、锚文本、图片视频的注释等内容。

比如下面这段HTML代码

<div id="baike-title">
<h1>
<span class="title">我的文章记载</span>
</h1>
</div>

在经过结构化网页后，剩下的用于排名的文字为“我的文章记载”

2.分词

分词是中文搜索引擎所持有的处理操作，这是因为英文等语言的单词与单词之间是有空格分隔的，而中文的词与词之间则是没有任何分隔符，所以搜索引擎必须首先将一句话分解成若干个词语。比如“我的文章记载”将被分解成为“我的”“文章”“记载”

分词的方法有很多，主要基于字典的分词法、基于理解的分词法和基于统计的分词法三种。

目前的主流搜索引擎通常结合这三种方法，构成一套分词系统。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。[本站由 WEEX唯客交易所（官网www.weex.com，备用域名www.weex.sh）提供赞助]

seo是什么意思之网页的处理

相关文章

最近发布

关于网站云服务器的选择

由于模板的原因可能导致不收录

关于GZIP的记录

cdn对收录有影响吗？

为什么我的网站没有关键词

网站有收录没有关键词怎么回事？

排行榜展示

wpjam新版测试百度快速收录功能

ripro主题美化仅需要1元

ripro6.3RiPRO子主题 RiPro主题美化（已测试）

苹果CMS V10 模板大橙子主题vfed3.15完美去后门,去授权

m3u8视频解析源码m3u8资源解析接口 P2P加速

苹果cms 数据库占用cpu解决办法