发布时间:2015-11-30 发布者:本地
HITS算法在概念的定义上相比于PageRank算法多提出了一个中心性网页的思想。利用权威网页和中心网页的相互作用影响,所以HITS算法更好地描述了互联网的一种重要结构组织:中心网页通常是权威网页之间彼此产生关联的纽带。
但是HITS算法和PageRank算法相似性很大,同样是得到相邻矩阵的特征向量(通过迭代的方式),然而HITS算法所针对的是特定查询主题与互联网子图而不是整个互联网图的结构,因此HITS算法的迭代次数和计算时间比PageRank要少很多。
但是以查询词作为依据,因此查询过程需要考虑排序的开销,一个适当的解决办法是为HITS中所考虑的链接权值赋予初始值,否则,最合理的网页价值度排列并不能由相邻矩阵的主特征向量所反映。而且,子图中的边的权重即便被赋予了适当的初始值,如若子图的相邻矩阵是可被约减的,则主特征向量中仍将无法体现很多有价值的网页。
更加严重的问题是,当查询很多广义主题时,HITS算法会把很高的价值度错误地赋予给许多与主题无关的网页。例如,当用户搜索“电影人物”时,返回的结果却是许多电影公司的网站主页。
因为和“电影人物”有关的网站通常会链接到电影公司的主页地址,基于电影公司网站商业性存在的原因,许多链接会在这些公司网站的主页之间产生,HITS分析算法从而被错误地引导了,称这种情况为主题漂移现象。
最后,可以注意到HITS算法是根据查询关键词通过在线的方法构造的查询子图,利用常规的方法把在线查询响应时间限制到很低是很难做到的。但是,假如专用的连接服务器作为辅助工具,这一问题会得到有效的解决。另外,一些想通过增加许多无效链接来增加网页PageRank值的作弊方法是无法被HITS分析算法通过的。