spider访问到不存在的网页
【页面找不到404错误】一般情况下,当百度spider访问到不存在的网页(因为您删除或重命名了网页且没有将旧网址重定向到新网页,或者链接中存在拼写错误)时,就会出现“未找到”状态错误(通常是404 HTTP状态代码)。
【网站访问遭拒绝】
一般情况下,百度会通过跟踪网页间的链接来查找内容。百度spider必须能够访问某个网页才能抓取该网页。如果您意外地看到了“访问遭拒”错误,可能是由于以下几种原因导致的:
(1)百度spider无法访问您网站上的网址,因为您网站上的所有或部分内容要求用户登录后才能查看。
(2)您的服务器要求用户使用代理进行身份验证,或者您的托管服务提供商阻止百度spider访问您的网站。
【网站参数错误】
由于请求的语法格式有误,不符合服务器对请求的某些限制,或者请求本身存在一定的错误,服务器无法理解此请求,导致抓取失败。
【蜘蛛socket读写错误】
当百度spider访问服务器,进行tcp通信的时候,socket读写发生异常,导致数据不能正常返回。请检查服务器连接状况和防火墙设置是否符合预期。
【读取http头或者页面内容时失败】
您的服务器收到了们的完整请求,但是返回信息时不完整,http头或者响应正文发生了截断,导致网页内容不能正常读取。
页:
[1]