面向查询的XML文本摘要技术

来源 :江西财经大学 | 被引量 : 0次 | 上传用户:elongyu888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML (extensible markup language),即可扩展的标记语言,是一种允许用户用特定领域的标记来描述文本含义和结构的元标记语言。随着互联网和网络技术的快速发展,符合XML规范的数据已广泛的应用到当前的信息社会中。面向查询的XML文本摘要技术任务就是基于特定的查询,通过XML信息检索技术与自动文摘技术有机结合,从大量的查询主题相关的文档中得到一个具有完整意义、良好可读性、连贯且符合用户需求的文本摘要。面向查询的XML摘要技术的出现,将能大大减轻人们的阅读负担,让人们从XML的数据海洋中快速高效的查找到自己需要的信息。本文研究面向查询的XML文本摘要技术,主要工作包括以下几个方面:1、设计并构建了面向查询的XML文本摘要语料库。本文系统介绍构建面向查询的XML文本摘要语料库的一序列工作,包括语料库的规划、构建流程和一些技术细节,并对所构建的语料库的特点进行分析,得到面向查询XML文本摘要句的查询特征、内容特征和结构特征。目前本语料库已收集英文25个查询主题247篇文本、中文32个主题278篇文本。2、构建了面向查询的XML文本摘要模型。首先将查询相关文档集分成句子,然后利用改进的基于密度分析的排序方法将句子分成查询相关句子集和查询不相关句子集。通过查询相关句子集利用改进的话题标签方法对用户提出的查询词进行查询扩展,结合查询扩展词,分别计算文档集中每个句子与用户查询主题之间的关联度得分、句子与查询主题相关文档集合的主题的关联度得分、通过对标签的分布概率给句子的标签赋分、利用改进Z. Szlavik方法得出层次赋分,然后通过线性融合的方法将这些得分组合起来,给每个句子一个得分,利用基于相似度的方法去除重复信息选取摘要句。通过ROUGE-1评测和人工评测证明,本文所提出的方法获取的文摘比较理想。3、本文提出了基于随机冲浪模型的XML文摘句子重排模型。该模型通过句子间的顺序关系(时间顺序、前后位置、句子所在文档树中的层次)和主题相关性关系的线性组合为边的权重、以句子为结点建立一个有向图,使用pagerank算法得到句子的分值并按该分值大小重排XML文摘中的句子。通过这个方法就可以得到一个句子序列,该序列就可以作为最终的摘要。通过实验证明,文摘内容逻辑上更合理、可读性更好、句子间更连贯。
其他文献
虚拟化技术是计算机体系结构中的重要技术。随着电脑硬件性能的提高使得虚拟化技术在计算机领域的应用范围越来越广。因此,虚拟化技术也很可能的成为未来的计算机发展的一种
视觉密码是一种依靠人类视觉系统直接解密的秘密共享技术,其安全强度相当于“一次一密”,它跟普通秘密共享方案一样,存在欺骗问题。虽然大多数视觉密码方案是假设参与者诚实
随着全球信息技术的发展,社会信息化程度迅速提高,数据库技术作为信息系统核心和基础在计算机应用的各个领域都起着至关重要的作用。在当今开放式的互联网时代,许多关键的业务系
学位
随着机器视觉和计算机技术的迅猛发展,视频处理技术的应用领域越来越广泛。由于生产力水平的不断提高,在工业生产中大量应用的机器视觉技术。机器视觉系统有其精确、快速、效率
群智感知是把移动设备作为感知的基本单元,并通过网络进行协作完成感知任务。在群智感知中,节点依靠人的运动而随机移动,所以可以实现随时随地进行感知。而且,群智感知把“存
随着互联网技术及地理信息技术的迅速发展,在互联网中使用GIS数据服务已被广泛应用到社会中的各行各业。协同标绘是以GIS数据发布的地图服务为基础,在二维地图上执行计算机的
面对网络信息呈爆炸式增长的现状,从海量的网络信息中挖掘有效信息、研究信息传播规律,传统串行算法已经不能满足高效率的要求。因此,网络信息处理高性能算法及信息传播模型
放射治疗的根本目标是最大限度地杀灭肿瘤细胞并使周围的正常组织和重要器官免受和尽可能少受不必要的照射。调强放射治疗(IMRT)被放射肿瘤学界认为是放射治疗技术的发展方向
近几年,随着我国铁路路网干线的提速以及高速、客运专线和重载铁路的发展,动车组的速度最高已经达到380km/h,路网设备维护已成为运输生产组织、行车安全中的关键问题,现有的
随着条形码技术的发展和POS(Point Of Sells)系统的普及,零售企业中的日常交易数据被大量收集,这些数据背后蕴藏着巨大的商机。作为数据挖掘中最活跃的研究方法之一,关联规则