seo是什么意思之蜘蛛爬行-卓创源码网

数据抓取系统是搜索引擎重要组成系统之一，主要负责互联网信息的搜索、保存以及更新等等，它就像是蜘蛛一样在互联网上爬来爬去，因此也被叫作网络蜘蛛(spider)或者机器人(bot)。每个搜索引擎的蜘蛛都有各自的名称，例如百度蜘蛛（baiduspider）/搜狗（sogou web spider）、谷歌机器人（googlebot）和必应机器人(Bingbot)等

搜索引擎抓取网页时会同时运行多个蜘蛛程序，从一些重要的种子网址开始，通过其网页上的超链接，网络蜘蛛不断发现新的网页并抓取，不断重复这个过程，最大可能抓取到更多网页。

由于互联网中每时每刻都存在网页被修改、删除或者出现新的链接的可能，所以对于百度这样的大型搜索引擎来说，还要不断地对过去抓取过的页面进行更新。

当网络蜘蛛爬行到某个网站时，会首先检查网站的根目录下是否存在robots文件，如果有，则会根据其约定不抓取禁止抓取的网页。进入允许抓取的网站后，网络蜘蛛会采用深度优先，宽度优先和最佳优先的三种策略爬行网站中的所有页面。

1.什么是深度优先策略

深度优先策略是早期使用较多的网络蜘蛛爬行策略。在网站中，当网络蜘蛛发现一个链接后，网络蜘蛛就会沿着这个链接爬行到下一个网页，沿着另一个链接继续爬行。当不再有新的链接出现时，整个爬行过程结束。

2.什么是宽度优先策略

宽度优先策略一般是指网络蜘蛛来到一个网页后，先爬行该网页上的所有链接，然后再爬行下一层网页的链接。

3.什么是最佳优先策略

最佳优先策略是指网络蜘蛛到达一个网页时，将网页中的所有链接收集到地址库中，并对其进行分析，从中筛选出重要性较高的链接进行爬行。影响链接重要性的因素主要有网页权重、网站规模和反应速度等。当某个链接的网页权重值越高、网站规模越大、反应速度越快时，就越会优先被抓取。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。[本站由 WEEX唯客交易所（官网www.weex.com，备用域名www.weex.sh）提供赞助]

seo是什么意思之蜘蛛爬行

相关文章

最近发布

关于网站云服务器的选择

由于模板的原因可能导致不收录

关于GZIP的记录

cdn对收录有影响吗？

为什么我的网站没有关键词

网站有收录没有关键词怎么回事？

排行榜展示

wpjam新版测试百度快速收录功能

ripro主题美化仅需要1元

ripro6.3RiPRO子主题 RiPro主题美化（已测试）

苹果CMS V10 模板大橙子主题vfed3.15完美去后门,去授权

m3u8视频解析源码m3u8资源解析接口 P2P加速

苹果cms 数据库占用cpu解决办法

seo是什么意思之蜘蛛爬行

相关文章

相关文章

最近发布

排行榜展示

标签