SEO搜索引擎的爬行和索引
Time:2013/2/25
可以把互联网想象成一个有很多站的大型城市地铁系统。每一站相当于一个独特的文件(通常是网页,有时候可以是PDF, JPEG或其他文件)。搜索引擎需要采用某种方式来爬过整个城市,找到所有地铁站,所以他们就使用现成的最佳途径:网页之间的链接。
互联网的链接结构将所有页面连接起来。通过链接,搜索引擎的自动机器人,又称为爬行器或蜘蛛(所以才有图2-11中的蜘蛛图案),可以接触到互相连接的亿万个文件。
搜索引擎找到这些页面后,下一个工作是分析其中的代码,然后把页面上选出来的消息存入大量硬盘阵列以便查询时调用这些信息。要存储能在瞬息间被访问的亿万网页是个相当庞大的任务,搜索引擎建造了大量的数据中心来处理这些数据。