用户名: 密 码:   注册
文章系统    微机使用记录  签到记录 设为首页 

搜索引擎的排名算法对于不常用的关键词给予更多的关注

作者:苏振亚  信息技术 小知识   2012/6/26 16:38:03 (10年前) 点击:927次
搜索引擎对我们输入的搜索词进行分词后,就把搜索词变为多个关键词的*,而每个关键词对整个搜索词的意义贡献并不相同,越是被我们常用的关键词,对整个搜索词的意义贡献越小,反之,越不常用的关键词对整个搜索词的意义贡献越大。*人力专家小空报道我们举个例子进行说明,例如搜索“他们哈雷慧星”,搜索引擎会把这个词分为“他们”和“哈雷慧星”。符合这个条件的网页是同时包括“他们”和“哈雷慧星”的网页,但是对于搜索引擎来说,“他们”与“哈雷慧星”对这整个搜索词的意义贡献并不相同,我们知道,“他们”这个词比较常用,非常多的网页都包括这两个字,所以“他们”这个关键词对“他们哈雷慧星”的搜索意义贡献并不大,相反的,“哈雷慧星”这个关键词比较少用,包括这个关键词的网页非常少,相应地他对整个搜索词的意义贡献比较大。在搜索引擎看来,包含哈雷慧性的网页与“他们哈雷慧星”更为相关。


因此,搜索引擎对于我们输入的关键词串中的每个关键词并不是一视同仁地处理。而是根据常用的程度进行加权。不常用的关键词加权系数比较高,常用的关键词的加权系数比较低。搜索引擎的排名算法对于不常用的关键词给予更多的关注。


例如有两个页面都包含“他们哈雷慧星”,在第一个页面里边,他们出现在正文内容中,哈雷慧星出现在标题中,第二个网页呢,刚好和第一个相反,哈雷慧星出现在正文中,而他们再现在标题中,那么很显然的,对于我们搜索“他们哈雷慧星”,在搜索引擎看来,肯定是和一个网页与搜索的关键词更为相关的。


找到包含所有关键词的匹配文件后,还不能进行相关性计算,因为找到的文件经常会有几十万几百万,甚至是上千万个。要对这么多文件实时进行相关性计算,需要的时间还是会比较长的。

实际上用户并不需要知道所有匹配的几十万几百万个页面,绝大部分用户只会查看前两页,也就是前二十个结果。搜索引擎也并不需要计算这么多页面的相关性,而只需要计算最重要的一部分页面就可以了。常用搜索引擎的人都会注意到,搜索结果页面通常最多只显示一百个。用户点击搜索结果页面底部的“下一个”链接,最多也只能看到第一百页,也就是一千个搜索结果。百度通常只返回76页结果。


所以搜索引擎只需要计算前一个千结果的相关性,就可以满足搜索要求了。

但问题在于,还没有计算相关性的时候,搜索引擎又怎么知道哪一千个文件是最相关的呢?所以用于最后相关性计算的初始页面子集的选择,必须依靠其他特征而不是相关性,其中最主要的就是页面权重。由于所有匹配文件都已经具备了最基本的相关性(这些文件都包含查询的关键词),搜索引擎通常会用非相关性的页面特征选出一个初始子集。初始子集数目是多少,几万个?或者更多,外人并不知道。不过可以肯定的是,当匹配页面数目巨大时,搜索引擎不会对这么多页面进行计算,而必须选出页面权重较高的一个子集,再对子集中的页面进行相关性计算


欢迎您游客866,你的IP是44.200.137.63,你是一名游客,打开这个页面用时144.5毫秒。
网站站长:苏振亚 冀公网安备 13020502000039号
ICP备案号:冀ICP备13014298号 唐山网监备案号:ts13020038101099 河北网监备案号:13020002000709