抓取诊断是什么?详解百度抓取诊断工具的使用方法、作用及常见问题
一、抓取诊断是什么
抓取诊断工具,可以让站长从百度蜘蛛的视角查看抓取内容,自助诊断百度蜘蛛看到的内容,和预期是否一致。每个站点每周可使用70次,抓取结果只展现百度蜘蛛可见的前200KB内容。是SEO优化师常用的百度官方工具之一。
二、百度抓取诊断工具的使用方法
1、登陆百度搜索资源平台,然后从" 搜索服务"找到" 抓取诊断"点击进入,百度抓取诊断工具入口链接为:https://ziyuan.baidu.com/crawltools/index。
*百度抓取诊断工具截图
2、将要诊断的网站填入输入框然后点击" 抓取"按钮进行抓取,比如要诊断的链接为" https://www.youhuaxing.cn/baiduseo/",那么输入" baiduSEO/"即可,抓取诊断还提供了PC和移动端的选项,如果你的链接是PC端的就选PC,如果你的链接是移动端的就选移动,如果你的H5自适应网站,那么选两个都可以。
3、抓取诊断工具抓取时间也就几秒返回抓取结果,等返回抓取结果后,可以点击抓取状态的"抓取成功"或"抓取失败"进行抓取内容分析,尤其是抓取失败的时候,看看具体是什么原因导致抓取失败。
三、抓取诊断工具的作用
目前抓取诊断工具有如下作用:
1、让站长从百度蜘蛛的视角查看抓取内容,自助诊断百度蜘蛛看到的内容和预期是否一致。譬如很多商品详情页面,价格信息是通过JavaScript输出的,对百度蜘蛛不友好,价格信息较难在搜索中应用。问题修正后,可用诊断工具再次抓取检验。
*百度Spider抓取结果及页面信息示例(图1)
2、诊断网页是否被加了黒链、隐藏文本。网站如果被黑,可能被加上隐藏的链接,这些链可能只在百度抓取时才出现,需要用此抓取工具诊断。
3、检查网站与百度的连接是否畅通,若是IP信息不一致,可以报错通知百度更新IP。
*百度Spider抓取结果及页面信息示例(图2)
四、抓取失败的原因与分析
1、网址url不规范
百度支持抓取的url长度不超过1024,如果您的链接长度过长,请在保证正常访问的情况下,适当精简,保证链接能被百度正常抓取和收录。
2、网站重定向错误
重定向是指百度spider访问链接时发生了跳转,如果跳转后的链接超长或者连续跳转的次数超过5次,就会发生重定向错误而导致抓取失败。
3、服务器连接错误
这种情况是指,由于服务器响应过慢或您的网站屏蔽了百度spider,而导致百度无法访问您的网站。从而会导致百度无法正常收录或者更新您网站的内容。您可能看到以下具体错误:连接超时、连接失败、连接被拒、无响应、响应遭到截断、连接重置、标头遭到截断、超时。
4、网站启用了robots封禁
在抓取诊断工具中如果返回的抓取失败结论是robots封禁,请确认您是否对该网址设置了robots,阻止百度spider抓取网站的某些内容,如果您未使用robots文件屏蔽百度,请点击旁边的报错链接,百度会立即更新您站点的robots信息;如果是您的误操作导致了封禁,请及时修改robots文件,避免造成您的网站在百度收录量和流量的下降。
5、服务器DNS错误
DNS错误是指由于服务器停止运行或DNS到您网域的路由存在问题,导致百度spider无法与DNS服务器通信。
如何处理DNS错误?
确保百度能够抓取您的网站。对重要网页(例如您的首页)采用抓取诊断工具,如果它能顺利返回您的首页内容,那么您就可以认为百度能够正常访问您的网站。
对于持续的或反复出现的DNS错误,请与您的DNS提供商联系。通常情况下,您的DNS提供商即为网站托管服务提供商。
配置您的服务器,使其能够以404或500等HTTP错误代码对不存在的主机名作出响应。
6、网页404错误
一般情况下,当百度spider访问到不存在的网页(因为您删除或重命名了网页且没有将旧网址重定向到新网页,或者链接中存在拼写错误)时,就会出现"未找到"状态错误(通常是404 HTTP状态代码)。
详细介绍请查看:404错误。
7、百度蜘蛛访问遭拒绝
一般情况下,百度会通过跟踪网页间的链接来查找内容。百度spider必须能够访问某个网页才能抓取该网页。如果您意外地看到了"访问遭拒"错误,可能是由于以下几种原因导致的:
(1)百度spider无法访问您网站上的网址,因为您网站上的所有或部分内容要求用户登录后才能查看。
(2)您的服务器要求用户使用代理进行身份验证,或者您的托管服务提供商阻止百度spider访问您的网站。
8、参数错误
由于请求的语法格式有误,不符合服务器对请求的某些限制,或者请求本身存在一定的错误,服务器无法理解此请求,导致抓取失败。
9、socket读写错误
当百度spider访问服务器,进行tcp通信的时候,socket读写发生异常,导致数据不能正常返回。请检查服务器连接状况和防火墙设置是否符合预期。
10、读取http头或者页面内容时失败
您的服务器收到了我们的完整请求,但是返回信息时不完整,http头或者响应正文发生了截断,导致网页内容不能正常读取。
五、抓取诊断工具常见问答
1、百度抓取诊断是否有助于收录?
优化猩SEO从实测观察来看,使用抓取诊断工具似乎对百度收录没有太多的影响,未收录的页面提交多次也还是未收录。但在与同行的交流中发现,有SEOer认为抓取工具对百度快照更新会产生一定的影响。
2、抓取失败对网站有哪些影响
对于大量内容无法正常抓取的网站,搜索引擎会认为网站存在用户体验上的缺陷,并降低对网站的评价,在抓取、索引、权重上都会受到一定程度的负面影响,最终影响到网站从百度获取的流量。
总结
优化猩SEO:百度抓取诊断工具最大的好处就是让站长从百度蜘蛛的视角查看抓取内容,从而诊断百度蜘蛛看到的内容和预期是否一致,如果与预期不一致,那么就可以从抓取报告中找到不一致的地方,从而进行网页优化处理。
参考链接:
平台工具使用手册_抓取诊断_百度搜索资源平台
https://ziyuan.baidu.com/college/courseinfo?id=267&page=10
抓取诊断工具上线_百度搜索资源平台
想了解更多SEO百科的内容,请访问:SEO百科