发布时间:2015-05-07 发布者:本地
网页特征的抽取是网页自动归类和自动聚类的前提。网页特征的抽取可以从以下几个方面提高网页自动分类系统的性能。首先是分类速度,通过网页特征的选择,可以大大减少特征集合中的特征数,从而提高网页自动归类系统的运行速度,使之能够满足现实需求。二是通过适当的特征选择,不但不会降低系统的准确性,反而会使系统的精度提高。这一点己经为实验所证明。为了使计算机能够更有效地处理网页特征,必须对网页特征进行特征加权,将网页特征表示成计算机能够处理的数学向量。网页数据是一种半结构化的数据,要比文本复杂的多。
在网页表示中,对任一特征而言,有两个影响它权值的因素。一是该词的词频,另一个是该词在网页中出现的位置,在网页中不同位置出现的语词的价值是不同的。正如张琪玉教授指出:“如果从针对文献整体的检准率的角度看,文献题名中的词最为有效。其次为文献中的小标题或者章节名、文献摘要。最后为文献中的词。”丁漩等人随机抽取了300篇经济类网页,对这些网页进行人工自由标引、人工打分、词频统计,并进行统计数据的分析、研究,得出了网页内容主题与网页题名、文章标题、第一段首句、第一段尾句、第二段首句、第二段尾句、第三段首句、第三段尾句、首段、尾段、HMTL标记等12个标引源的主题表达能力的先后顺序。得出的结论是首段>文章标题H>TML标记>第一段首句>网页标题>第一段尾句>第二段首句)第二段尾句)尾段>第三段首句>其它>第三段尾句。并建议它们的加权值为5:5:5:4:4:4:2:2:2:2:2:2。