论文部分内容阅读
基于词词关联矩阵的模糊检索算法通过词词关联矩阵构建算法运行的环境。在算法实践过程中,尤其是用该算法去改进已有的标准布尔检索系统,原有系统效率往往会下降,主要原因集中在两个方面:(1)词词关联矩阵的构造需要大量的数据支撑和长的处理时间(2)词词关联矩阵属于自构造词表,词间关系单一,存在误相关和假相关情形。基于上述问题,本文从词词关联矩阵改进的角度出发,采取多种措施来解决问题。第2部分,通过模糊集合检索模型的规范描述,本节首先定义了检索系统中检索效率和系统效率之间的函数关系,并应用该函数关系对比分析模糊集合检索系统和标准布尔检索系统的性能,指出模糊集合检索系统所面临的“囚徒困境”:检索效率的提升引起了系统效率的下降。之后针对“囚徒困境”,从词词关联矩阵方面来改进模糊集合检索策略,寻求到解决“囚徒困境”的思路和技术手段。最后借助SQL语言演示词词关联矩阵的两种构造策略,建立数学模型分析词词关联矩阵构造的最优时机,并确立该思路为一种新的系统开发模式。根据时机来合理选择词词关联矩阵构造策略有助于改善现有模糊集合检索算法的执行效率,实现检索效率和系统效率的双赢。第3部分,传统上,检索系统利用基于词语共现分析所生成的自构造词表,即词词关联矩阵来实现模糊检索,这种方式生成的词表存在词间关系单一、语词假相关、词义控制差等问题。本节结合传统叙词表,对自构造词表的词间关联度算法进行了改进,新算法丰富了词间关系类型。实证分析表明,新算法有助于提升系统的检索效率。本节首先阐明词间关联度现有算法及关系数据处理方式,并指出现有算法存在的问题,然后引入叙词表控制机制,针对四种词间关系控制情形提出了各自的词间关联度改进算法。最后通过集合从理论上分析改进算法和现有算法,并借助语词关系网实证改进算法对语词关系网的关联性的影响。第4部分,语义网的发展为模糊语词转模糊概念检索提供了可能。鉴于词表在模糊检索系统中的主导地位,实现模糊概念检索必先要完成词表向本体的转换。本节在综合分析和评价已有转换方法的基础之上,提出了综合转换法。综合转换法继承了间转法规范的概念抽取及关联设计规则,又通过综合评议和词信息量、词间关联度、文档频率等参数的算法设计改变了直转法过于程式化的处理方式。最终将词词关联矩阵转换为概念矩阵,叙词表升级为本体库,并在现有检索算法的基础上设置了检索原子与概念的映射关系,以实现概念检索。最后需要说明,本文改进措施依然存在一定的缺陷。第2部分的改进措施存在着理想化设置情景的问题;第3部分,实证改进算法有效性环节规避了检索效率评价的直接指标:查全率和查准率:第4部分,改进措施仅仅从理论上证明了可行性,缺乏实体系统的检验。因而,本文的改进措施着眼于未来依托词表进阶过程构建实体检索系统。