- N +

HITS算法

文章目录 [+]

在HITS链接分析算法当中,阐述最多的两个点就是Hub页面与Authority页面。

   HITS算法与Pagerank算法一个显著的差异是:HITS算法与用户输入的查询请求密切相关,而Pagerank是与查询无关的全局算法。HITS后续计算步骤都是在接收到用户查询后展开的,即是与查询相关的链接分析算法。


      HITS算法接收到了用户查询之后,将查询提交给某个现有的搜索引擎(或者是自己构造的检索系统),并在返回的搜索结果中,提取排名靠前的网页,得到一组与用户查询高度相关的初始网页集合,这个集合被称作为根集(Root Set)。


      在根集的基础上,HITS算法对网页集合进行扩充(参考图6-13),扩充原则是:凡是与根集内网页有直接链接指向关系的网页都被扩充进来,无论是有链接指向根集内页面也好,或者是根集页面有链接指向的页面也好,都被扩充进入扩展网页集合。HITS算法在这个扩充网页集合内寻找好的“Hub”页面与好的“Authority”页面。



      图6-13 根集与扩展集


      对于“扩充网页集合”来说,我们并不知道哪些页面是好的“Hub”或者好的“Authority”页面,每个网页都有潜在的可能,所以对于每个页面都设立两个权值,分别来记载这个页面是好的Hub或者Authority页面的可能性。在初始情况下,在没有更多可利用信息前,每个页面的这两个权值都是相同的,可以都设置为1。


      之后,即可利用上面提到的两个基本假设,以及相互增强关系等原则进行多轮迭代计算,每轮迭代计算更新每个页面的两个权值,直到权值稳定不再发生明显的变化为止。


      图6-14给出了迭代计算过程中,某个页面的Hub权值和Authority权值的更新方式。假设以A(i)代表网页i的Authority权值,以H(i)代表网页i的Hub权值。在图6-14的例子中,“扩充网页集合”有3个网页有链接指向页面1,同时页面1有3个链接指向其它页面。那么,网页1在此轮迭代中的Authority权值即为所有指向网页1页面的Hub权值之和;类似的,网页1的Hub分值即为所指向的页面的Authority权值之和。

QQ截图20180414173729.png

一、什么是Authority页面(权威页面)

简单来说Authority页面(权威页面)是指在某一个领域范围内或者某一个相关主题范围内的高质量网页。比如招聘领域,前程无忧网站的首页就是该领域的一个高质量优质网页。比如淘宝首页就是电商领域的优质网页。

二、什么是Hub页面(枢纽页面)

而Hub页面(枢纽页面)通常就是它页面本身包含了很多高质量的Authority页面的链接,比如360网址导航首页就是一个非常好的Hub页面(枢纽页面)。因为在360网址导航的站点页面里面聚合了众多的不同类型的权威站点集合,比如新闻板块聚集了新浪、腾讯等权威站点。视频板块聚集了搜狐视频、优酷视频等权威站点。这个点和大家经常发布的一些分类目录网站外链有点类似(所以为何网站目录外链还存在一定的效果,正是因为搜索引擎本身有自己特有的算法才会影响到你的排名)。

一个高质量的authority页面会被很多高质量的hub页面所指向。

一个高质量的hub页面会指向很多高质量的authority页面。

之所以容易用来作弊是因为HITS强调的比较多的还是枢纽页面和权威页面之间的一种相互增强关系。作弊者可以通过建立新页面的形式,并且在新建立的网页中加入了很多高质量的权威页面链接,自身页面就会形成了一个很好的枢纽页面,然后作弊者可以通过该页面的一个权威枢纽性,再指向作弊网页链接,从而给与作弊网页增加权威页面得分。如下图所示:

HITS算法缺陷

每个搜索引擎算法都有自己的优势和缺陷,HITS也不例外,在HITS算法当中,有4个最常见的缺陷,其中包含了计算效率低、主题漂移、容易作弊和结构不稳定。

由于HITS算法是与之查询相关的算法,所以不能先计算,而必须是用户请求了某一个搜索词以后才能去计算该词的一些站点文档匹配度(链接评分板块),加上HITS算法的计算属性需要通过多次的计算迭代才能最终计算出检索结果的文档链接的推荐度投票,所以导致计算效率比较低下。

而主题漂移问题则是大家常常可以看到了一些现象,即使我交换的链接和我站点主题没有一条相关,但是也会促进我的页面关键词排名提升。而这种现象正是因为HITS的特殊算法结构才出现了给与这些无关网页很高的排名。最终导致了搜索结果发生了主题漂移,而这种现象也称为“紧密链接社区现象”。

外链要具有稳定性

这里所说的外链具有稳定性,是指结构稳定性。一般情况已经加了外链的网站,不要轻易的删除个别网页或者更改外链的相关性。比方说,A网站:济南网站优化-外链指向了B网站,但是忽然某一天,你A网站的这个外链关键词给改成了济南seo,那么在整个过程中,对B网站的排名是有很大影响的。这就是为什么我们有的时候网站会莫名的掉了的一个原因。所以很多时候网站排名的波动除了官方算法变动,与你互换链接的友链网站和外链网站的变化,也是会波及到你的。出现问题要及时的排查。

 HITS算法与PageRank算法比较


      HITS算法和PageRank算法可以说是搜索引擎链接分析的两个最基础且最重要的算法。从以上对两个算法的介绍可以看出,两者无论是在基本概念模型还是计算思路以及技术实现细节都有很大的不同,下面对两者之间的差异进行逐一说明。      


      1.HITS算法是与用户输入的查询请求密切相关的,而PageRank与查询请求无关。所以,HITS算法可以单独作为相似性计算评价标准,而PageRank必须结合内容相似性计算才可以用来对网页相关性进行评价;


      2.HITS算法因为与用户查询密切相关,所以必须在接收到用户查询后实时进行计算,计算效率较低;而PageRank则可以在爬虫抓取完成后离线计算,在线直接使用计算结果,计算效率较高;


      3.HITS算法的计算对象数量较少,只需计算扩展集合内网页之间的链接关系;而PageRank是全局性算法,对所有互联网页面节点进行处理;


      4.从两者的计算效率和处理对象集合大小来比较,PageRank更适合部署在服务器端,而HITS算法更适合部署在客户端;


      5.HITS算法存在主题泛化问题,所以更适合处理具体化的用户查询;而PageRank在处理宽泛的用户查询时更有优势;


      6.HITS算法在计算时,对于每个页面需要计算两个分值(内容权威度和链接权威度),而PageRank只需计算一个分值即可;在搜索引擎领域,更重视HITS算法计算出的Authority权值,但是在很多应用HITS算法的其它领域,Hub分值也有很重要的作用;

      补充:HITS算法认为对每一个网页应该将其内容权威度和链接权威度分开来考虑,在对网页内容权威度做出评价的基础上再对页面的链接权威度进行评价,然后给出该页面的综合评价。内容权威度与网页自身直接提供内容信息的质量相关,被越多网页所引用的网页,其内容权威度越高;链接权威度与网页提供的超链接页面的质量相关,引用越多高质量页面的网页,其链接权威度越高。

      不足:首先,它完全将网页的内容或文本排除在外,仅考虑网页之间的链接结构来分析页面的权威性,这与现实网络中的权威页面相比,其不科学性显而易见。 然而HITS算法也有其明显的不足。因为权威页面必须针对某一主题或关键词而言。例如某一页面对一确定主题具有较大权威性,但这并不意味在其他与其无关的主题方面同样具有权威性。其次一个页面对另一页面的引用有多种情况,其中包含了一页面对另一页面的认可,但除此之外也有其他目的链接,如为了导航或为了付费广告。就HITS算法的思想与实现过程做了细致的研究与概括。而HITS算法在实现过程中均没有考虑以上情况.导致了结果与目标的差距。

     对HITS 算法的第二个不足,即非正常目的的引用.在HITS算法看来,也误认为是正常引用,导致实际结果与目标的出入。针对前面第一种不足,就有相关的学者提出了一种利用超链文字及其周围文字与关键字相匹配而计算超链权值的方法,并引入系数对周围文字和超链文字进行权值的相对控制,很好地将页面文本信息引入到HITS算法,提高了算法的可靠性,并在现实中取得了很好的效果。

     后来,经过不断的改进。HITS算法又引入了时间参数,即利用对一链接引用的时间长短来评价是否为正常引用。因为非正常链接其引用时间肯定不会很长(如交换链接、广告链接),相反,如果一页面对另一页面的链接时间较长,则必然反映此页面就是用户的寻找页面。即目标页面或至少是正常引用。


      7.从链接反作弊的角度来说,PageRank从机制上优于HITS算法,而HITS算法更易遭受链接作弊的影响。


      8.HITS算法结构不稳定,当对“扩充网页集合”内链接关系作出很小改变,则对最终排名有很大影响;而PageRank相对HITS而言表现稳定,其根本原因在于PageRank计算时的“远程跳转”。


作者:huchao
未来永远在它该来的路上,能够把握的只是此时此刻——万折必东
返回列表
上一篇:
下一篇:
评论列表 (暂无评论,共1356人参与)参与讨论

还没有评论,来说两句吧...

发表评论中国互联网举报中心

快捷回复: