S君观察搜索引擎蜘蛛

80酷酷网    80kuku.com


不知道大家小时候有没有观察过蚂蚁搬家,搜索引擎派出蜘蛛来抓取我们的网站和蚂蚁搬运东西有着十分微妙的相似~所以S君凭借小时候观察蚂蚁的经验,同样对搜索引擎蜘蛛的爬行进行的观察分析得出以下几点结论:

1.特殊蜘蛛
每 一个域名第一次被搜索引擎收录的时候就自动产生了一只或一批“特殊蜘蛛”,如1shoot.cn,那蜘蛛就叫1shoot.cn-spider或者 NO.2315465-spider等等,这些蜘蛛和你的域名是对应的,也就是说这些蜘蛛出发去爬的时候第一个去的肯定是你的域名。所以蜘蛛是有分工的, 不是乱爬的,而且特定的蜘蛛会爬特定的站。

然而据S君观察,这些蜘蛛似乎分好几个等级,每一个新站分配到的第一个特殊蜘蛛默认等级为: LV1。等级往往由:网站的PR值,站点的复杂程度,内容的丰富程度,以及更新频率等诸多因素确定。等级不同爬行能力也不一样,等级越高“出洞爬行”的频 率越高,侦察能力越强。所以越是PR高,内容丰富,更新快的站,在搜索引擎上收录越快。

2.采集蜘蛛
采集蜘蛛一般 是不出动的,待在“洞”里等特殊蜘蛛的命令。特殊蜘蛛发现有内容更新就会回去告诉采集蜘蛛,当然特殊蜘蛛的智商一般比较高,它会分析这一次的网站和上一次 爬行时有什么不同,哪些内容是更新。然后会调用总部资料,查看这次更新的数据量和重要性[重要性通常是指对应关键词的热度,信息的相似程度等],最后确定 派出采集蜘蛛的数量。

3.蜘蛛爬行规则
网络上的每一条超链接都可以比做蜘蛛丝,这些超级链接互相连接组成了一张 “大型蜘蛛网”,搜索引擎派出的蜘蛛都沿着这些连接爬行。如果你的网站连向别的网站,那么你的特殊蜘蛛会从这个连接爬过去,反之别的网站连向你的网站,别 人的特殊蜘蛛就会爬过来。所以友情连接的作用就好比连接两个“内部蜘蛛网”的“蜘蛛丝”,然而特殊蜘蛛会对自己特定的站有偏好,即使爬到别人的站上去了采 集的信息远远没有自己特定的站多,最多只是回去的时候告诉别人站的特殊蜘蛛那个网站现在的情况怎样。

正是由于特殊蜘蛛的活动规律才有网络上流传所谓的搜索引擎“小更新”和大更新“,往往”大更新“是指你的网站的特殊蜘蛛出动了,而”小更新“呢只是你的特殊蜘蛛从别的蜘蛛那听说你的网站有变动。这2种情况对与同一个更新所派出的采集蜘蛛的数量是不同的。

上 面说到特殊蜘蛛的偏好,还有一点即使它从你的站上爬到了别人站如果找到从别人站返回自己的站的连接那么他会爬回来。这个我们叫做”双向连接“。大家都知道 PR加成的算法,别的站连向你的站就算该网站投了你一票。然而所有蜘蛛能够爬回来的投票都是要打折扣的,直到蜘蛛发现从这个站爬到另外的站的时候回不去 了,那么它会认为这连接是你的网站自发的向被连网站投的很自然的一票,而不是互相有利益可图而做的连接,这正是S君所提倡的6P单向连接,正因为单向连接对PR有很大的影响作用,GOOGLE才那么痛恨购买连接的行为。

这里讲的蜘蛛大多是指GOOGLE的蜘蛛通常我们看到的名字是:GoogleBot[Bot/Crawler],当然对与别的搜索引擎蜘蛛的生活习性大致相同,也各有各的特点,今后S君会继续研究
如果您对于蜘蛛有什么特别的看法的话也可以留言大家交流~

分享到
  • 微信分享
  • 新浪微博
  • QQ好友
  • QQ空间
点击: