论文部分内容阅读
文档融合是组织文本及整合信息的关键技术,也是自然语言生成的重要基础。该技术旨在整合跨多个文档的重要信息,生成简洁流畅的摘要,不同于传统意义上的文摘生成任务,该摘要既要覆盖主题文档集合中的共同信息,也要体现重要的差异性信息,它不仅仅是关键内容的提炼,更强调相关内容的整合。其中,如何获取文档集合中主题概念及这些主题概念所延伸出的主题发展,将整个集合中的关键信息按一定逻辑有条理的排序,基于不同的主题内容对篇章或语句进行聚类组织等都是重要的研究课题。本文主要从三个方面探索文档融合任务涉及的关键技术,具体内容如下:1.文档融合任务整合同一事件或对象的相关信息,以新闻事件为例,不同新闻报道所描述的同一新闻事件,基于不同视角所呈现的信息不同,后续报道中还会出现伴随事件发展而产生的新的相关信息。为有效去除冗余信息,获得主题及主题相关信息,本文提出一个基于模糊多重集理论的对象合并框架,基于合并函数将文档集对应的多重集以及单篇文档中概念对应的模糊多重集合进行合并操作,然后利用有效性评价函数评价并优化合并函数,从而获得关键概念及其相关词。2.文档融合需要逻辑通顺的内容排布,以句子为处理“粒度”,在文档集合中抽取出蕴含关键概念及发展线索的语句,利用排序融合技术对这些句子进行排序,形成逻辑通顺、可读性强的新的篇章结构。本文提出利用主题句子聚类以及图模型对待排序语句进行组合及建模,将语句排序问题转化为连续型Hopfield神经网络所擅长的路径优化问题,在主题簇对应的图中节点间寻找到一条最短路径,最后将路径输出顺序作为最优的排序方案。3.文档融合需要解决基本的主题内容划分问题,由于缺乏领域背景知识,对于特定事件或特定领域的主题聚类仍然存在困难,体现在这类聚类问题中难以有效提取相关特征。本文提出基于领域本体获取领域知识从而指导特征选择,利用向量空间模型对这些特征进行表示,通过矩阵变换得到模糊等价关系矩阵实现聚类。该方法是一种无监督的方法,不需要预先对数据进行人工标注,无需训练过程,因此在组织特殊领域文档时具有较高的灵活性和自动化处理的能力。