找回密码
 开放注册

QQ登录

只需一步,快速开始

微信登录

微信扫码,快速开始

搜索
查看: 490|回复: 0

搜索引擎抓取信息的流程

[复制链接]

21

主题

-1

回帖

122

牛毛

一级牛人

积分
122
发表于 2014-10-21 15:20:44 | 显示全部楼层 |阅读模式 来自 上海市虹口区

我们都知道,我们在百度输入一个关键词,在一瞬间会出现很多页面,其中发什么什么变化呢?他是如何展现出来的呢?今天我们就来分析一下它是如何抓取以及排序的 孩子厌学治疗http://www.yanxue119.com/523.html

首先我们来看这个图。

百度工作原理


我们可以看到,在百度搜索一个关键词,它首先会在分析你的关键词,然后去数据库中找到你想要的结果,并计算出排列顺序,然后给你展现出来。这就是一个排序过程。它怎么知道什么页面排在第一页。什么排在第二页。这就需要一个算法,进行排序。他早已经算好,放在它的数据库中。那么数据是从哪儿来的呢?

如果你的内容它没有抓取到,是不能展现给你相对应的结果的。它需要把内容提前抓取好,存好,分好类。再给我们指令来进行相应的反馈,并且展示出来。从图上我们可以看到,它是经过抓取,建库这么一个过程。这就是我们所说的收录

孩子厌学叛逆http://www.54qsn.com/yanxue/2014/1015/237.html。

步骤一:抓取

那么什么是抓取呢?抓取就是蜘蛛已经开始爬了。建库是百度已经把你的数据放入自己的数据库中了。虽然过程很复杂,但原理是不变的。抓取从哪儿抓呢?互联网!我们都知道互联网是海量的。蜘蛛就要去不停的爬行,在海量的互联网中抓取有价值的内容,然后筛选。

步骤二:建库

蜘蛛爬完之后会放到所对应的数据库中,比如你是企业站站啊,你是图片啊,它会进行分类和精细的筛选。

步骤三:内部分析

建库之后它内部就会进行分析。把它之前抓取的内容进行拆分,包括分词啊。包括连接的权重。全部进行算好之后放入索引数据库中。只要你去给它一个请求,它就会调用数据,给我们展示出来。过程是毫秒计算的,比较快,提前已经给你分析好了,无时无刻都在分析。如果你的内容没有抓取到,就不存在建库,也不存在排序。


步骤四:计算排列顺序。

它会根据你页面的价值进行排序。页面质量好的,它认为最接近用户需求的页面,它就会考虑放在前面。它会考虑你这个页面对用户的价值。

总结:这就是搜索引擎的抓取原理。我们要做的就是提交我们的没有收录的页面,先让它收录。只有收录才会展现,其次要做好高质量的页面,只有你页面的质量OK抓取后才会有更好的展现 注意力训练http://www.54qsn.com



您需要登录后才可以回帖 登录 | 开放注册

本版积分规则

帮助|Archiver|小黑屋|通信管理局专项备案号:[2008]238号|NB5用户社区 ( 皖ICP备08004151号;皖公网安备34010402700514号 )

GMT+8, 2025-1-12 01:50 , Processed in 0.128083 second(s), 27 queries , Yac On.

Powered by Discuz! X3.5

快速回复 返回顶部 返回列表