搜索引擎工作原理:索引与链接关系的计算

  我们知道搜索引擎蜘蛛在爬行和抓取网页的时候进行了提取文字信息,分词,去噪,去重,最后便得到了一个关于页面主题的关键词集合,接下来搜索引擎会对这个集合进行正向索引,即把每个页面中的多个关键词和页面建立对应关系,并且同时会对这些关键词记录它们的密度,频率,表现格式等权重信息,表现格式主要是分析这些关键词是否使用了H1标签,是否使用了粗体或颜色变化,是否出现在了页面的title,description,keywords标签等权重标签。

  当这个正向索引关键词集合建立起来以后,依然不能用来进行排名计算,如果用户在搜索引擎中输入关键词,那么搜索引擎需要在这个集合中先找见关键词,然后再找出与关键词对应的页面,最后通过进行复杂的计算程序得出排名,显然这个运算过程在短时间内是难以完成的。为了提高用户搜索信息能实时返回结果,搜索引擎会对上面得到的正向索引信息进行反向索引,即以关键词为单位,把跟它对应的页面放入同一个集合中,这样在用户搜索关键词进行排序的时候,搜索引擎只要找到匹配的关键词就能返回包含这个关键词的页面集合,当搜索引擎预处理工作进行到这里时,大家是不是对它的工作原理已经有点明朗了。

  当搜索引擎进行反向索引之后,还需要计算大量的相关信息才能对页面做出排名,在这个过程中最为关键的就是计算页面的链接关系,比如有哪些页面通过链接导入这个页面,这个页面导出了哪些链接,链接的锚文本采用了哪些关键词等等,这个运算量是非常庞大的。关于计算链接关系,google的PR值就是这种链接关系的一种体现。

  除了对html文件进行索引外,搜索引擎还能对其他形式的文件进行索引,比如常见的TXT,PPT,WORD,PDF文件等,虽然现在搜索引擎对图片,Flash动画,视频的索引能力大大增强,但是跟索引html文件能力比起来,还是有一段距离的,所以大家在网站中放置一些图片,动画或者视频的时候,最好配上文字说明,为搜索引擎蜘蛛做出引导,减轻它的工作压力。

发表评论

匿名匿名

提示:请先登录再进行评论,