面向信息检索的XML文档节点语义研究

来源 :江西财经大学 | 被引量 : 0次 | 上传用户:netgood
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
可扩展标记语言XML已经成为数据交换的重要格式,并且广泛应用在数字图书馆、科学数据库以及互联网等领域。随着XML文档的广泛应用,对于XML文档检索的研究已逐渐成为信息检索领域的一个重要研究方向。目前对于XML信息检索的研究已经取得了一定的成果,但是排序的精确度不高。对XML检索结果的排序直接关系到XML信息检索的性能,但现有的XML检索结果排序模型考虑了词项在XML文档中出现的统计特性,但没考虑词项所在的位置,即视XML文档中各节点具有同等的重要性。然而,节点在整个XML文档中的角色不同,因此,相同内容出现在不同节点中,应该具有不同的权重,即不同的节点具有不同的语义权重。 本文提出了一种基于向量空间模型的XML节点语义权重自动获取方法,该方法主要是通过对节点与文档的相似性计算来获取节点的语义权重。实验数据选择Wiki部分数据集,专家对各节点语义权重的手工标注结果与该模型自动标注结果的Pearson相关系数达到0.827,说明该节点语义标注模型能够较好地分析节点在XML文档中的重要性,有利于改善排序效果。 另外,还进行了SVD实验,在实验中根据奇异值分解重新生成了新的语义权重,通过比较我们发现经过SVD后的权重模型与专家标注的Pearson相关系数高达0.928,这说明分解后的效果更好。
其他文献
当今社会己进入了信息时代,图形图像方面的需求不断增加。数字图像处理科学与技术逐步向其他学科领域渗透,并为其他学科所利用是科学发展的必然。在储层建模领域实现断层构造三
工作流管理系统是实现计算机辅助协同工作的工具,能够实现工作流程的全部或者部分自动管理功能。它不仅便于工作的规范化,而且便于人员与资源的合理配置、工作流流程的监督与
电信客户关怀项目是为了有效管理电信存量客户而建立的基于从属型数据集市的分析管理系统。ETL指数据抽取、转换、清洗、装载的过程,是建立数据集市最基本最重要的环节,是电
传统的分组密码分析技术局限于算法的数学结构,其攻击效果往往不佳。国内外密码学界都在加强基于算法实现的分析方法研究,边带信道分析技术作为一种新的密码分析方法迅速成为
在实际生产过程中,复杂不确定性系统内部关系复杂、外部影响因素多、数据量大较难建立简单函数方程来预测系统的未来发展趋势,制约了人们获取有用信息,采取有效行动的能动性
由于应用的复杂性,在很多情况下单个Web服务难以满足实际需求,对于复杂业务过程的处理需要采用服务组合的方法即由各个小粒度的Web服务相互之间通信和协作来实现大粒度的服务功
句法分析是自然语言处理中的关键性问题之一,其主要任务是自动识别句子的句法结构。同时句法分析也是中文信息处理领域内的一个重要课题,它的发展能带动其它相关语言学应用的
电力系统的无功优化是在当前电网的结构和运行情况给定时,通过调节一些控制变量,如发电机节点的输出功率,变压器变比,电容器等无功补偿装置的投切参数等,使系统达到网损最小,
目前,基于数据库和联机事务处理(OLTP)的医院管理信息系统(HMIS)的应用已经同趋成熟,并积累了大量的历史数据。但当面对数据量迅速膨胀的超级数据库时,许多企业和信息技术人员却
智能电网大规模事故给人们生活带来了严重后果,经过专家学者对控制系统软件可靠性的研究得出,某些软件可靠性模型在处理软件可靠性评估和故障诊断时无法得到良好的效果,因此如何构建适应智能电网控制系统的软件可靠性模型成为本文研究的核心问题。本文目标是采用基于形式化的软件可靠性模型构建高可靠性的软件运行模式。以现有的电网控制系统软件可靠性研究入手,分析电网及其控制系统特性,把控软件可靠性模型的基本要素,利用形