百度蜘蛛是什么意思?详解百度蜘蛛工作原理、抓取和查询方法
一、百度蜘蛛是什么意思
百度蜘蛛是百度搜索引擎蜘蛛的简称(英文:BaiduSpider),百度蜘蛛是百度搜索引擎的一个自动程序。它的作用是访问收集整理互联网上的网页、图片、视频等内容,然后分门别类建立索引数据库,使用户能在百度搜索引擎中搜索到您网站的网页、图片、视频等内容。
二、百度蜘蛛的工作原理
如果说互联网是一个蜘蛛网的话,那么搜索引擎蜘蛛就是在这个网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的,从网站的一个页面(首页)开始,读取网页的内容,找到网页中其他链接地址,通过这些链接地址寻找下一个网页,直到把这个网站所有的网页都找到。
*百度蜘蛛的工作原理
面对全网上千亿的网页,搜索引擎每天都会派出无数的蜘蛛程序去抓取散布在互联网上的网页,对其进行质量评估后再决定是否收录和建立索引,都会有这个四个步骤:抓取、过滤、索引和输出。
1、抓取
百度搜索引擎机器人,又叫百度蜘蛛。百度蜘蛛会通过计算和规则确定需要爬取的页面和爬取频次,如果网站的更新频率和网站的内容质量和对用户的友好度高,那么你新生成的内容就会马上被蜘蛛抓取到。
2、过滤
因为页面的数量太多,页面质量参差不齐,甚至还有诈骗页面,死链接等等垃圾内容。所以百度蜘蛛会先最这些内容进行过滤,避免这些内容展现给用户,对用户造成不好的用户体验。
3、索引
百度对过滤后的内容会进行标记和标识和分类,对数据结构话储存起来。保存内容包括标题,描述等页面关键内容。然后这些内容会保存于库内,当用户搜索的时候,就会根据匹配规则展现。
4、输出
当用户搜索一个关键词的时候,搜索引擎会根据一系列的算法和规则去和索引库里面的内容进行匹配,同时会对匹配结果的内容进行优缺点评分,最后得出一个排列顺序,也就是百度的排名。
三、百度蜘蛛的级别
百度搜索引擎把蜘蛛分为三种级别:1、初级蜘蛛;2、中级蜘蛛;3,高级蜘蛛。 这三种蜘蛛分别具有不同的权限。
1、高级蜘蛛
高级蜘蛛负责去爬行权重比较高的网站,高级蜘蛛有专门的权限,就是秒收。这就是为什么你去权重比较高的论坛发帖,会被搜索引擎直接秒收了。高级蜘蛛爬行深度也是非常的高,他几乎能够爬行到你网站的所有链接页面,高级蜘蛛的来访频率也很高,几乎每天都会来访,这样就完全加快了百度快照的更新频率。这就是为什么这么多站长一直在不断努力的提高权重的原因。
2、中级蜘蛛
中级蜘蛛通过爬行外链和反链(友情链接)来到你的网站,然后再从你的网站爬行,从而抓取你网站的内容,然后把抓取的到的内容,和搜索引擎数据库中原来的数据一一进行对比,看看是否是原创内容、伪原创内容、还是直接采集的内容,从而确定要不要放出来。所以说,我们在高权重的论坛发软文和有锚文本签名是可以很有效的引来蜘蛛的光顾。
3、初级蜘蛛。
初级蜘蛛就简单了,它一般情况只去爬行新站,爬行深度也很低,它抓取到网页的内容后,会一级一级的提交到搜索引擎数据库,然后先把数据存放起来,再过几天再来爬行,直到搜索引擎觉得爬行到的内容是有价值的才会被放出来。这就是为什么新站都有一个考核期,因为都是一些初级蜘蛛在光顾,所以特别的慢,一般情况爬行深度也很低,有时候只爬了一个首页就完事了。
四、百度蜘蛛抓取网页的形式
1、通过我们手动推送给搜索引擎抓取(手工提交)。
*手动推送功能截图
2、从其他网站上面发现我们的链接(比如友链),也就是我们常说的SEO外链。
3、通过浏览器访问我们的网页,留下缓存数据后,被蜘蛛抓取得到。
五、百度蜘蛛抓取策略
由于蜘蛛为了能够抓取网上尽量多的页面,它会追踪网页上的简介,从一个页面爬到下一个页面,就好像是蜘蛛在蜘蛛网上爬行那样。整个互联网网站都是相互链接组成的,也就是说,搜索引擎蜘蛛从任何一个页面出发最终都会爬完所有页面。
网站和页面链接结构太过于复杂,所以蜘蛛只有采用一定的方法才能够爬完所有页面,最简单的爬行策略有3种:
1、深度优先
深度优先就是指蜘蛛到达一个页面后,发现一个锚文本链接,就是爬进去另个一页面,然后又在另一个页面发现另一个锚文本链接,接着往里面爬,直到最后爬完这个网站。深度优先抓取的目的是为了抓取高质量的网页,这个策略是由调度来计算和分配的,百度蜘蛛只负责抓取。
2、广度优先
广度优先就是蜘蛛到达一个页面后,发现锚文本不是直接进去,而是把整个页面所有都爬行完毕,再一起进入所有锚文本的另一个页面,直到整个网站爬行完毕。
3、最佳优先
最佳优先搜索策略按照一定的网页分析算法,预测候选URL与目标网页的相似度,或与主题的相关性,并选取评价最好的一个或几个URL进行抓取,它只访问经过网页分析算法预测为"有用"的网页。
存在的一个问题是,在爬虫抓取路径上的很多相关网页可能被忽略,因为最佳优先策略是一种局部最优搜索算法,因此需要将最佳优先结合具体的应用进行改进,以跳出局部最优点,据马海祥博客的研究发现,这样的闭环调整可以将无关网页数量降低30%~90%。
六、百度蜘蛛的查询方法
关于查询百度蜘蛛,百度官方给出了两种方法,即查看UA信息和DNS解析认证,详细操作方法如下:
1、查看UA信息
如果UA信息不对,可以直接判断为非百度搜索的蜘蛛。目前UA分为移动、PC、和小程序三个应用场景,这三个渠道UA分别如下:
移动UA:
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko)Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
或
Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html)
PC UA:
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
或
Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
小程序UA:
Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;Smartapp; +http://www.baidu.com/search/spider.html)
2、双向DNS解析认证
第一步:DNS反查IP
开发者通过对日志中访问服务器的IP地址运行反向DNS查找,判断某只spider是否来自百度搜索引擎,Baiduspider的hostname以*.baidu.com或*.baidu.jp 的格式命名,非*.baidu.com或*.baidu.jp即为冒充。
根据平台不同验证方法不同,如linux/windows/os三种平台下的验证方法分别如下:
1).在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。
2).在windows平台或者IBM OS/2平台下,您可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup xxx.xxx.xxx.xxx(IP地址)就能解析ip,来判断是否来自Baiduspider的抓取。
3).在macos平台下,您可以使用dig命令反解ip来判断是否来自Baiduspider的抓取。打开命令处理器输入dig -x xxx.xxx.xxx.xxx(IP地址)就能解析ip,来判断是否来自Baiduspider的抓取。
第二步:对域名运行正向DNS查找
对第一步中通过命令检索到的域名运行正向DNS查找,验证该域名与您日志中访问服务器的原始IP地址是否一致,IP地址一致可确认spider来自百度搜索引擎,IP地址不一致即为冒充。
示例1:
> host 111.206.198.69
69.198.206.111. in-addr.arpa domain name pointer baiduspider-111-206-198-69.crawl.baidu.com.
> host baiduspider-111-206-198-69.crawl.baidu.com
baiduspider-111-206-198-69.crawl.baidu.com has address 111.206.198.69
七、百度蜘蛛ua(user-agent)汇总
序号 | 产品名称 | 对应ua(user-agent) |
1 | 网页搜索 | Baiduspider |
2 | 无线搜索 | Baiduspider |
3 | 图片搜索 | Baiduspider-image |
4 | 视频搜索 | Baiduspider-video |
5 | 新闻搜索 | Baiduspider-news |
6 | 百度搜藏 | Baiduspider-favo |
7 | 百度联盟 | Baiduspider-cpro |
8 | 竞价蜘蛛 | Baiduspider-sfkr |
八、百度蜘蛛常见问题解答
1、Baiduspider对一个网站服务器造成的访问压力如何?
答:Baiduspider会自动根据服务器的负载能力调节访问密度。在连续访问一段时间后,Baiduspider会暂停一会,以防止增大服务器的访问压力。所以在一般情况下,Baiduspider对您网站的服务器不会造成过大的压力。
2、为什么Baiduspider不停的抓取我的网站?
答:或许您的网站权重高或者对于您网站上新产生的或者持续、有规律更新的页面,Baiduspider会持续抓取。此外,您也可以检查网站访问日志中Baiduspider的访问是否正常,以防止有人恶意冒充Baiduspider来频繁抓取您的网站。 如果您发现Baiduspider非正常抓取您的网站,请反馈至,并请尽量给出Baiduspider对贵站的访问日志,以便于我们跟踪处理。
3、我不想我的网站被Baiduspider访问,我该怎么做?
答:Baiduspider遵守互联网robots协议。您可以利用robots.txt文件完全禁止Baiduspider访问您的网站,或者禁止Baiduspider访问您网站上的部分文件。 注意:禁止Baiduspider访问您的网站,将使您的网站上的网页,在百度搜索引擎以及所有百度提供搜索引擎服务的搜索引擎中无法被搜索到。
详细介绍请查看:robots协议
4、为什么我的网站已经加了robots.txt,还能在百度搜索出来?
答:因为搜索引擎索引数据库的更新需要时间。虽然Baiduspider已经停止访问您网站上的网页,但百度搜索引擎数据库中已经建立的网页索引信息,可能需要二至四周才会清除。 另外也请检查您的robots配置是否正确。
5、我希望我的网站内容被百度索引但不被保存快照,我该怎么做?
答:Baiduspider遵守互联网metarobots协议。您可以利用网页meta的设置,使百度显示只对该网页建索引,但并不在搜索结果中显示该网页的快照。
和robots的更新一样,因为搜索引擎索引数据库的更新需要时间,所以虽然您已经在网页中通过meta禁止了百度在搜索结果中显示该网页的快照,但百度搜索引擎数据库中如果已经建立了网页索引信息,可能需要二至四周才会在线上生效。
6、百度蜘蛛在robots.txt中的名字是什么?
答:"Baiduspider" 首字母B大写,其余为小写。
7、Baiduspider多长时间之后会重新抓取我的网页?
答:百度搜索引擎每周更新,网页视重要性有不同的更新率,频率在几天至一月之间,Baiduspider会重新访问和更新一个网页。
8、Baiduspider抓取造成的带宽堵塞?
答:Baiduspider的正常抓取并不会造成您网站的带宽堵塞,造成此现象可能是由于有人冒充baidu的spider恶意抓取。如果您发现有名为Baiduspider的agent抓取并且造成带宽堵塞,请尽快和我们联系。您可以将信息反馈至百度网页投诉中心,如果能够提供您网站该时段的访问日志将更加有利于我们的分析。
总结
优化猩SEO:大家了解百度蜘蛛的工作原理解析之后就明白怎么去做网站优化和推广了,一个网站如果有高级百度蜘蛛来爬行,那么就可以实现内容秒收,从而更快的获得搜索引擎排名。所以就要不断的努力提高权重和更新网站内容,原创内容很重要!
参考链接:
百度蜘蛛_百度百科
https://baike.baidu.com/item/%E7%99%BE%E5%BA%A6%E8%9C%98%E8%9B%9B/5781752
轻松两步,正确识别百度蜘蛛(User-Agent)_百度搜索资源平台
https://ziyuan.baidu.com/college/articleinfo?id=1295
百度蜘蛛的运行原理详解-CSDN博客
https://blog.csdn.net/amao0712/article/details/80383736
百度搜索引擎蜘蛛的工作原理解析-百度经验
https://jingyan.baidu.com/article/c1465413561bf90bfcfc4c0a.html
百度spider介绍_百度搜索资源平台
https://ziyuan.baidu.com/college/articleinfo?id=1192
修改于2023-05-17
想了解更多SEO百科的内容,请访问:SEO百科