网站漫谈之浅谈百度专利|【奶爸SEO】

百度有两项专利技术,一项是搜索引擎超链分析技术;另一项是搜索引擎投票算法,那么我们就根据百度搜索引擎排名的核心专利技术进行分析吧!我们做一个简单概况:超链分析技术其实是将抓取的页面包含超链接锚文本作为了衡量网页相关性及权重高低的最基础算法。

任何一个搜索引擎都可以收录并索引N多网页快照,但是快照之间的相关性及页面权重如何评级?例如sina、souhu、163等权威网站上有好排名的的超链接,那么至少说明了该页面权重很高对吧?假如不但有超链接还有锚文本那么相关性就产生了对吧?例如这些权威网站里有我一个“搜索引擎优化”的超链接至少能知道我网站的主体思想吧?这就是超链分析技术。超链分析算法两个核心:一个是超链接的页面评级判断;另一个是锚文本相关性判断。

一、搜索引擎超链分析算法

超链分析专利其实就是现实生活中类似于链接关系的应用。要判断哪个页面最具权威性,不能光看页面自己怎么说,还要看其他页面怎么评价。李彦宏1997年就提交了一份名为“超链文件检索系统和方法”的专利申请,这比GOOGLE创始人发明PR要早得多,不得不说这是非常具有前瞻性的研究工作。

在这份专利中,李彦宏提出了与传统信息检索系统不同的基于链接的排名方法。这个系统除了索引页面之外,还建立一个链接词库,记录链接锚文字的一些相关信息,如锚文字中包含哪些关键词,发出链接的页面索引,包含特定锚文字的链接总数,包含特定关键词的链接都指向哪些页面。词库不仅包含关键词原型,也包含同一个词干的其他衍生关键词。

根据这些链接数据,尤其是锚文字,计算出基于链接的文件相关性。在用户搜索时,将得到的基于链接的相关性与基于关键词匹配的传统相关性综合使用,得到更准确的排名。

在今天看来,这种基于链接的相关性计算是搜索引擎的常态,每个SEO人员都知道。但是在十三四年前,这无疑是非常创新的概念。当然现在的搜索引擎算法对链接的考虑,已经不仅仅是锚文字,实际上要复杂的多。一个与根据超链指向的查询索引文档相关,用于检索文档的搜索引擎。它的索引器遍历超文本数据库并寻找包括超链指向的文档地址与每个超链的锚文本在内的超文本信息。

超文本信息是贮存在一个倒排索引文件里,这个倒排索引文件亦可用于计算对于各超链指向的特定文档链接向量。输入查询时候,搜索引擎找到锚文本里含有查询词的全部文档的向量。此外计算了查询向量,然后算出查询向量跟每个文档链接向量的点积。特定文档相关点积的加总确定每一个文档的相关性排名这份专利所有人是李彦宏当时所在的公司,发明人是李彦宏本人。

二、搜索引擎投票排名算法

这个算法是在超链分析技术之后延伸的一个投票记录算法 (搜索引擎排名规则)

搜索引擎排序规则需要在搜索展现与访问之间做出有效分析、对比并记录的.无论是百度排名还是google等搜索引擎结果展示并不是很容易判断关键词与快照的权威性,如何判断关键词与实际快照的权威性呢?搜索引擎自然排名

一定是从用户出发,根据有效搜索做出判断,人自然检索一个关键词并访问结果时,用户经常会找不到自己想要的结果,所以当人自然检索后虽然访问到了您的网站,但不一定是有效搜索,因为最后搜索不一定会停留到您的网站上。

假如:您搜索一个词,打开第一位结果,发现不是你想要的,您肯定会继续访问下面的结果,直到找到你需要的结果后才停止访问剩余结果(也有可能您根本找不到自己想要的结果)当您找到需要的结果后自然不会继续访问剩余的结果,最后停留的目标页面被称之为有效搜索;虽然这个思路和算法还存在很多缺陷,但是大部分搜索引擎还是以这个算法为最佳算法,因为搜索引擎无法判断出来关键词与快照的权威性。

本文由奶爸SEO(www.naibaseo.com)收集于网络不代表本站观点,在这条路上你并不孤单,奶爸与你始终相伴

原创文章,作者:奶爸SEO,如若转载,请注明出处:https://www.naibaseo.com/842.html

(0)
上一篇 2015年7月27日 下午4:49
下一篇 2015年7月27日 下午4:49

相关推荐

发表评论

邮箱地址不会被公开。 必填项已用*标注