论文部分内容阅读
XML (extensible markup language),即可扩展的标记语言,是一种允许用户用特定领域的标记来描述文本含义和结构的元标记语言。随着互联网和网络技术的快速发展,符合XML规范的数据已广泛的应用到当前的信息社会中。面向查询的XML文本摘要技术任务就是基于特定的查询,通过XML信息检索技术与自动文摘技术有机结合,从大量的查询主题相关的文档中得到一个具有完整意义、良好可读性、连贯且符合用户需求的文本摘要。面向查询的XML摘要技术的出现,将能大大减轻人们的阅读负担,让人们从XML的数据海洋中快速高效的查找到自己需要的信息。本文研究面向查询的XML文本摘要技术,主要工作包括以下几个方面:1、设计并构建了面向查询的XML文本摘要语料库。本文系统介绍构建面向查询的XML文本摘要语料库的一序列工作,包括语料库的规划、构建流程和一些技术细节,并对所构建的语料库的特点进行分析,得到面向查询XML文本摘要句的查询特征、内容特征和结构特征。目前本语料库已收集英文25个查询主题247篇文本、中文32个主题278篇文本。2、构建了面向查询的XML文本摘要模型。首先将查询相关文档集分成句子,然后利用改进的基于密度分析的排序方法将句子分成查询相关句子集和查询不相关句子集。通过查询相关句子集利用改进的话题标签方法对用户提出的查询词进行查询扩展,结合查询扩展词,分别计算文档集中每个句子与用户查询主题之间的关联度得分、句子与查询主题相关文档集合的主题的关联度得分、通过对标签的分布概率给句子的标签赋分、利用改进Z. Szlavik方法得出层次赋分,然后通过线性融合的方法将这些得分组合起来,给每个句子一个得分,利用基于相似度的方法去除重复信息选取摘要句。通过ROUGE-1评测和人工评测证明,本文所提出的方法获取的文摘比较理想。3、本文提出了基于随机冲浪模型的XML文摘句子重排模型。该模型通过句子间的顺序关系(时间顺序、前后位置、句子所在文档树中的层次)和主题相关性关系的线性组合为边的权重、以句子为结点建立一个有向图,使用pagerank算法得到句子的分值并按该分值大小重排XML文摘中的句子。通过这个方法就可以得到一个句子序列,该序列就可以作为最终的摘要。通过实验证明,文摘内容逻辑上更合理、可读性更好、句子间更连贯。