搜索引擎内部的网址索引库

aoe飞鸟 · 发表于 2014-12-4 15:28:02

　　所以搜索引擎蜘蛛是从搜索引擎的服务器出发，顺着搜索引擎已有的网址爬行一个网页，并将网页内容抓取回来。页面采集回来之后，搜索引擎会对其进行分析，将内容和链接分开，内容暂时先不说。分析出来链接之后，搜索引擎并不会马上去派蜘蛛进行抓取，而是把链接和锚文本记录下来交给网址索引库进行分析、对比和计算，最后放入网址索引库。进入了网址索引库之后，会有蜘蛛去抓取。
　　也就是如果出现了某个网页的外链，并不一定会立刻有蜘蛛去抓取这个页面，而是会有一个分析计算的过程。即便是这个外链在蜘蛛抓取之后被删除了，这个链接也有可能已经被搜索引擎记录，以后还有抓取的可能。而且下次如果蜘蛛再去抓取这个外链所在页面，发现链接不存在了，或者外链所在页面出现了404，那么只是减少了这个外链的权重，应该不会去网址索引库删除这个链接。
　　一：认识百度蜘蛛
　　1、在一般情况下，Baiduspider对网站的服务器不会造成过大压力。Baiduspider会自动根据服务器的负载能力调节访问密度。在连续访问一段时间后，Baiduspider会暂停一会，以防止增大服务器的访问压力。所以在一般情况下，Baiduspider对你网站的服务器不会造成过大压力。
　　2、不想网站被Baiduspider访问，你可以利用robots.txt文件完全禁止Baiduspider访问您的网站，或者禁止Baiduspider访问您网站上的部分文件。注意：禁止Baiduspider访问您的网站，将使您的网站上的网页，在百度搜索引擎以及所有百度提供搜索引擎服务的搜索引擎中无法被搜索到。
　　3、如果你希望网站内容被百度索引但不被保存快照，你可以利用网页meta的设置，使百度显示只对该网页建索引，但并不在搜索结果中显示该网页的快照。
　　4、防止有人冒充百度蜘蛛。如果你网站的带宽堵塞，造成此现象可能是由于有人冒充baidu的spider恶意抓取。如果您发现有名为Baiduspider的agent抓取并且造成带宽堵塞，您可以将信息反馈至百度网页投诉中心。
　　二：怎么吸引百度蜘蛛
　　1、导航必须用文字
　　相信很多的朋友经常可以在很多的企业网站上看到图片导航，而且一般没有进行相关的标注。做seo的人都知道蜘蛛对于没加ALT标签的图片和FLASH是不能识别的。而网站的导航又是位于首页的头部，对于优化来说是十分重要的地方，如娄底人网的导航就是全文字，这点很重要。可谓是寸土寸金，可惜就这么白白的浪费了。并且在网速不是很好的时候，加载还很缓慢，等半天图片都木有刷出来，对于用户体验也很不友好。因此广大朋友在进行网站优化的时候头部的导航一定要使用文字导航。
　　2、代码必须要精简
　　大家都知道蜘蛛爬取的是网页的源代码和我们人眼睛所看到的是不一在线时间0小时样的。如果你的网站到处充满着js、iframe等蜘蛛不能够识别的代码的话，这个就好像这家餐馆的食物都不是你喜欢吃的、都是不符合你的口味的，那么在您去了几次之后，你还会再去吗？da安是否定的。因此我们需要精简网页的代码，尽量降低网页的信噪比，所以最好使用css+div依照w3c规格进行设计，让蜘蛛走进你家门。
　　3、内链必须四通八达相信大家都见到过蜘蛛吧，那自然也见到过蜘蛛结的蜘蛛网咯。我们可以看到蜘蛛网的结构是十分美好的，四通八达。同样我们
　　网站最好也打造成网站内部链接的四通八达，这样不仅可以提升网站的收录量，也可以提高网站的用户体验，还可以促进网站的权重更好的传递，可谓是益处多多。
文章由重庆网站建设公司雪毅网络 http://www.xuewl.cn 整理

guohui1314 · 发表于 2014-12-4 15:29:55

网站最好也打造成网站内部链接的四通八达，这样不仅可以提升网站的收录量，也可以提高网站的用户体验，还可以促进网站的权重更好的传递，可谓是益处多多。

交通事故赔偿网 · 发表于 2014-12-4 15:32:38

代码必须要精简

账号		自动登录	找回密码
密码			开放注册