论文部分内容阅读
在现代信息社会里,信息数量和种类不断增长,使得人们正面临着在这种动态信息空间中检索、游览、评价和处理信息的挑战。目前信息检索的系统存在着如何提高检索效率,为用户提供方便、准确信息服务的问题。本文以文本信息为研究对象,主要研究了文本信息检索中的如下几个问题:基于属性论的文本概念重心模型;基于重心模型的语义判断;信息浏览聚类方法;Web信息挖掘;基于移动主体理论处理分布式信息检索。 本文成果主要包括如下几个方面: 1、建立了文本概念重心模型。首先说明概念是文本中最基本的属性,概念之间存在着合取运算,概念集基于合取运算的生成变化关系构成一个概念幺半群。对应于这样一种代数结构,存在着一个同构的几何表示结构,即文本概念重心模型。 2、利用文本概念重心模型提出了计算文本与查询式间的相似方法以及概念与概念间的语义相关判断。在该模型中文本与查询式以向量为表现形式,确定了文本的重心,提出了进行相似计算的匹配基准,从而建立一个文本与查询式之间的匹配相似度计算方法及概念的语义相似判断。 3、基于移动主体的高度自治性和移动性,研究了在分布式信息环境中浏览搜寻和组织分布信息的问题。设计了移动多主体系统原型,静态分布信息检索任务规划主体、分布信息检索主体、分布任务规划对象几种模块,实现了自然语言检索、完全字符串检索、右截断模糊匹配检索及布尔检索几种功能。 4、在文本集中根据概念分布情况解决信息检索中查询优化问题。设定了一个描述文本集中概念分布情况的均值向量,提出了一个均值层次聚类方法,从而把文本集分成几个相关的类,为基于概念的查询优化提供了分类扩展机制。 5、形式化描述了WWW信息语义特征结构,提出了WWW信息常用模式的抽取算法。主要分析了Internet上Web页面的属性特征,形式描述了Web页面结构及Web页面对象,抽取出常用的Web页面模式,并基于该模式说明了创建新的、完善的Web页面的运行机制。 6、基于本文的研究成果,实现了北京图书馆的基于特征的多媒体信息检索系统的子系统。 综上所述,本论文在分析了文本信息特点的基础上,探讨了分布式信息检索的模型、相似判断、聚类、表示和工作原理。信息检索还有许多问题值得探讨,本文的工作是一个尝试,还有待进一步深入。