发布时间:2016-02-03 发布者:本地
互联网是一个拥有无限潜在未知能力的虚拟信息资源,然而这种潜力是还未被完全开发的,因为确定相关信息间的联系是很费时的,也很可能是无用的。然而,如果机器能“明白”网页的内容,那么就很有可能做到比较高的预测率和召回率。当然,在大多数情况下对自然语言作出最精确的处理仍然一个比较难的实现,但是在Internet的爆炸式发展的大环境下,越来越多的信息资源、站点涌现在全球的范围,面对海量的网络信息资源,这将迫使人们使用新型搜索技术为用户从浩瀚的数据中抽取信息,并提供给用户最贴合用户需求的搜索结果,这将极大地节省用户的查询时间以及简化用户的操作。
现行的Web信息主要存在的局限性有三种。第一,信息无法被有效利用,根据数据显示,“暗网”中大概有100亿个相互不重复的表单,这些表单所包含的数据信息是非“暗网”的40是倍,而其中内容有效的部分所占总量至少是非“暗网”有效的部分的1000倍到2000倍,也就是说现行的技术也很难做到精确识别Web上的所有数据信息内容,导致无法获得更多的有效而且质量高的信息;第二,信息无法被自动的处理,即现行的机器无法“理解”海量的信息,并且缺乏自动处理信息的能力;第三,服务存在着异构化,这一个问题主要基于各种Web service标准,不同服务之间的集成需要人工的操作,除此之外服务中间件对信息的描述、检索等也存在着二义性,导致机器无法自动化“明白”信息,并作出相应的处理。
基于上述的局限,Web上的传统搜索引擎技术由于其精度、查找不全等原因导致效果还未能让人满意。近年来传统搜索引擎技术都尝试结合语义Web技术来改善传统搜索引擎的结果表现,而这个领域也越来越得到大家的关注与尝试,许多尝试者都想构建一种基于语义网络的新型技术来改善搜索结果。语义搜索即是结合语义Web的新型搜索技术。它的愿景是希望使用语义Web的新型搜索技术来提高当前搜索技术的性能,企图建立下一代结合语义Web的新型搜索技术的引擎。