发布时间:2015-03-05 发布者:本地
在使用搜索引擎查询信息时会出现短查询或者是用户对于所需查询的描述不明确的问题,搜索引擎不能很好地理解用户的查询意图,这样会导致搜索的结果偏离查询预期。所以在用户输入查询词之后,到和已建立的索引库进行关键词匹配之前,利用计算机语言学,信息学等多种技术,在原查询基础上,采取适当的方法或者规则加入和原始查询相关的词语,使原始查询能够更加的丰富,再次检索时就能够根据这些新加入的描述词,使检索的文档更符合用户的查询,可以有效的改善初始查询指向不明导致的查准率低的问题。目前扩展词的来源主要有:初次检索中认为相关的文档、从用户日志或文献集中挖掘、某种包含词与词间相关信息的资源。它主要包括以下几种方式:
1.全局分析
基于全局分析的查询扩展技术是最先被提出的查询扩展技术。全局分析技术是指在整个文档集上对于词语进行共现频率的统计,得到词语之间的关联程度,之后构造词语共现表。当用户进行查询时,就从共现表中选取共同出现概率大的词语对原查询进行补充,作为查询扩展源。它主要包括以下三种方法:基于词语的全局聚类的查询扩展技术、基于相似性叙词表的查询扩展技术、基于潜在语义索引的查询扩展技术。其主要的缺点是要对文档集的每个文档进行分析处理,而文档集中文本数量极大,所以对计算性能要求很高;而且全局分析技术不能识别歧义词和一词多义的词,会造成结果不准确。
2.局部分析
局部分析技术是根据用户第一次查询返回的检索结果,选择用户认为相关的文档作为扩展来源文档,生成新的查询词再次进行检索,最终得到检索结果。局部分析的扩展技术作为全局分析技术的补充,在很大程度上改善了全局分析中存在的一些问题。它们选择的查询文档集有很大不同,全局分析是对全部的文档进行分析,但是局部分析是对其中的相关文档进行分析。它包括相关反馈和伪相关反馈技术,二者最大的区别是,作为查询扩展词来源的文档集不同。相关反馈需要用户的参与,提供初始查询时认为相关的文档作为查询扩展词来源文档;伪相关反馈默认为初始查询结果中排在前N位的文档为查询扩展词来源文档。两种方法都取得了一定的效果,但是都依赖于最开始的检索结果,如果一开始的查询结果中相关文档太少,那么扩展结果就会不尽人意。
3.基于局部上下文的查询扩展技术
该技术是利用了全局分析思想的局部分析方法,但利用全局分析的词共现频率思想避免了向原查询加入不相关的词。它分为如下三步:
(1)根据初始结果选择前n篇文档作为查询扩展的候选文本集。
(2)从这n篇文档中通过公式计算出和原查询最相关的词汇。
(3)最后将相关度排名前m位的词语加入原查询。
从以上可以看出,局部分析方法依然是依赖于初始的查询结果,如果初始结果的相关度低的话,就不可避免的造成查询扩展偏离主题,造成查询结果不准确。
4.基于语义概念查询扩展技术
基于语义概念查询扩展技术分为两种方法:一种是首先建立语义空间,从中提取出与用户查询语义相似或相关的词,实现对用户查询的语义扩展。另一种是利用数学的方法统计两个词语间的共现概率,找到共现概率大的词语从而实现查询扩展。
5.基于社会标签的查询扩展方法
其基本思想就是:根据用户在浏览网页的过程中收藏的网页,提取出这些收藏的网页中的关键词,之后对这些网页进行聚类得到不同的网页类别,作为用户的兴趣类别,再次查询时就根据查询词所属的兴趣类别进行查询扩展,得到扩展词。利用标签方法可以得到用户最感兴趣的网页来源,但是因为收藏的文件不多,导致用户的兴趣范围过小。
6.基于用户查询日志的查询扩展基于用户查询日志的查询扩展,它对用户的初始查询没有要求,对于新查询,选择历史查询记录中被大部分用户选择的文档作为候选的查询扩展文档集。