论文部分内容阅读
随着互联网的普及,互联网上包含着海量的并且时刻在增加的信息。针对用户输入的一个简单查询,搜索引擎一般会返回用户可能需要的一系列经过排序的网页,其中有大量不相关的、重复的数据,需要用户耗费很多精力来自己查找有用的结果。面向查询的多文档自动文摘技术将大量的查询相关文档中的内容提炼、重组为一定长度的简短摘要,加速用户的信息获取,通常要求摘要的内容简洁、组织良好、冗余低、满足个性化需求。面向查询的多文档自动文摘技术能够减小从海量数据中获取信息的难度,提高信息获取及理解的速度,进而提高用户获取以及利用信息的效率,提高使用者在信息社会中的竞争实力。云模型是李德毅院士提出的一种处理不确定性概念中模糊性、随机性及其关联性的定性定量转换模型。云模型从研究自然语言概念的不确定性入手,展开对不确定性人工智能的研究。虽然云模型发端于自然语言中的概念,但遗憾的是,就目前搜集到的论文情况看来,将云模型直接应用在自然语言处理领域本身的工作还比较少见。本论文针对中文语料中的面向查询多文档自动文摘展开了研究。首先构建可以用于公开评测的评测语料、人工摘要;在此基础上利用云模型进行文摘内容选取、句子修剪、句子排序,力图生成满足用户需求的聚焦度高、内容精练、可读性好的连贯摘要;最后采用修改后的ROUGE工具进行中文文摘自动评测。本文主要研究工作和研究成果概括如下:一、提出了一种基于云模型的文摘单元选取方法,利用云模型,全面考虑文摘单元的随机性和模糊性,提高面向查询的多文档自动文摘系统的性能。首先计算文摘单元和查询条件的相关性,将文摘单元和各个查询词的相关度看成云滴,通过对云的不确定性的计算,找出与查询条件真正意义相关的文摘单元。随后利用文档集合重要度对查询相关的结果进行修正,将文摘句和其他各文摘句的相似度看成云滴,利用云的数字特征计算句子重要度,找出能够概括尽可能多的文档集合内容的句子,避免片面地只从某一个方面回答查询问题。为了证明文摘单元选取方法的有效性,在英文大规模公开语料上进行了实验,并参加了国际自动文摘公开评测,取得了较好的成绩。二、构建了中文自动文摘评测语料库及中文自动评测工具,并以此为基础,构建了一种基于云模型的中文面向查询多文档自动文摘系统。中文自动文摘评测语料库由1000篇文档、100个文档集合和查询条件、400篇人工摘要构成。通过修改英文文摘评测工具ROUGE的源程序,实现了中文自动文摘的ROUGE自动评测。首先将50个文档集合作为训练语料,采用哈工大最新共享的语言技术平台进行句子切分、分词;随后利用中文自动评测工具,在测试语料中进行参数训练;最后采用基于云模型的文摘单元选取方法生成中文摘要,就此搭建了中文云摘要系统。三、提出了一种基于多维云和依存分析的中文句子修剪方法,进一步提高文摘质量。首先制定基于依存分析的句子修剪规则,对每个候选文摘句进行句子修剪,从而产生多候选句;随后利用多维云,综合考虑词语在句子、文档集合中的分布以及和查询条件的相关性,对各修剪句进行打分,在云的叠加过程中实现了不确定性的有效传递;最后选取那些包含信息量最大、长度最短的修剪句替换候选文摘句,构成自动摘要,从而使文摘包含更多的有效信息。四、提出了一种基于云模板的文摘句排序方法,使生成的中文云摘要更加连贯。云模板的方法将文档集合中的每一篇文档都看成模板,利用云模型将各篇文档的排序结果综合到一起,既避免了单一模板方法对于单个文档的依赖,也避免了多数次序方法只能两两排序的缺点。首先利用基于复杂网络的自适应增量聚类方法对文档集合进行聚类,找出那些包含有一个或多个文摘句的子主题;随后将文档集合中的每一篇文档都看作模板,利用这些模板构成的云确定子主题和文摘句在模板中的相对位置;最后依次对子主题以及对子主题内部的句子进行排序,从而生成连贯性更好、可读性更强的自动摘要。