基于有监督深度学习的抽取式多文档自动摘要研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:xdhjyinghua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,爆发式增长的信息使自动文本摘要的深入研究成为必要需求。自动文本摘要作为一种减轻信息过载的技术,在实践中有着广泛的应用,如自动生成搜索引擎检索结果的快照、自动生成新闻文章和技术文章的摘要、自动写稿机器人等等。最早的自动文本摘要研究采用无监督技术,由于缺乏人类智能的必要监督,这些方法通常效果较差。20世纪90年代,随着机器学习技术的出现,研究者们提出了各种各样的方法,利用有监督机器学习技术提高自动文本摘要性能。虽然有监督方法通常比无监督方法具有更好的性能,但需要大量的人工参与来抽取特征。最近,深度学习模型在很多任务中都显示出了巨大的潜力并取得了很好的效果。深度学习至少有两方面的吸引力:第一,深入学习使研究者们从繁重的特征工程工作中解放出来,从而使得人们可以更快地构建系统应用。第二,深度学习模型善于学习有效的低维特征表达,一定程度上弥补了传统机器学习算法的不足。本学位论文展开了一系列的研究工作,探讨如何利用深度学习模型来提高多文档自动摘要的性能。同时,我们也提出了一种冗余性感知的句子回归框架来改进现有的句子回归框架。句子回归框架是抽取式文档摘要的常用框架之一,在很多数据集上都取得了不错的效果,所以被广泛应用于实际系统中。本学位论文的主要工作和创新性可以归纳为以下几个方面:(1)一个句子是否应该作为摘要取决于其重要性,而一个句子是否重要不仅依赖于其所表达的意思,也依赖于它和其他句子的语义关系,尤其是句子的上下文关系。本文提出了一种神经网络模型,利用句子的上下文关系来改进一般多文档自动摘要(Generic Multi-Document Summarization)的性能。大多数现有的多文档摘要研究都把主要精力花在建模句子的意思上。因为每个句子通常只表达一种观点或陈述一个事实,如果不知道其他相关句子中所反映的背景,可能会很难理解这个句子所表达的意思。句子的上下文关系指文档中的某一句话与其紧邻的前后文中的几句话的关系。本文提出了一种神经网络模型,通过利用句子的上下文关系来提高一般多文档自动摘要的性能。具体地,首先利用基于词汇级别注意力机制的卷积神经网络来构建句子的表示。然后,利用基于句子级别注意力机制的循环神经网络来构建上下文的表示。最后,通过同时学习句子及上下文的低维特征表示,以及一个句子和其上下文句子的语义相似度,本文提出的模型可以自动学习出有效的上下文特征来改进摘要的效果。此外,本文的模型通过引入词汇级别和句子级别的注意力机制,不但能提高自动文本摘要的性能,还能够自动识别出相对于当前句子,上下文中语义关系比较紧密的词汇和句子。本文在DUC 2001年、2002年、2004年的一般多文档自动摘要数据集上做了大量实验。实验结果表明本文所提出的模型在ROUGE指标上超过了现有的先进方法。(2)对于基于查询的多文档自动摘要(Query-focused Multi-Document Summarization)来说,一个文档句子是否应该包含在最终的摘要里不仅仅取决于这个句子的重要性,还取决于它与给定查询的相关程度。本文提出了一种神经网络模型,通过利用注意力机制来加强文档句子与查询之间相关性的建模,实现基于查询的多文档自动摘要。在DUC的基于查询的多文档自动摘要任务中,针对一个文档集往往给定了多个查询,根据这些查询来生成一个摘要,给定的多个查询通常是针对文档的不同方面。现有的研究往往直接估计一个文档句子与所有查询的总体相关度。但是事实上,这样是不合理的,因为一个句子一般来说都很短,仅仅表达了一个观点或者陈述了一个事实。换言之,一个句子通常只能够回答一个查询,建模它与所有查询的总体相关度往往会引入噪声导致估计不准确。针对此,本文提出了一种神经网络模型,通过建模句子与每一个查询的细粒度相关度来提高基于查询的多文档自动摘要的性能。具体地,首先利用卷积神经网络来构建文档句子的低维特征表示和查询句子的低维特征表示。然后,通过基于查询句子关系的注意力机制,使得在衡量文档句子与查询句子之间相关度的时候,能够更关注于那些与当前句子更相关的查询。这个过程模拟了人带着问题去阅读的行为习惯,当读到一句话时,人们会考虑它与给定的哪个查询比较相关。本文在DUC 2005年、2006年、2007年的基于查询的多文档自动摘要数据集上做了大量实验和分析。实验结果表明,本文提出的模型取得了不错的效果,超过了当前的先进方法。此外,根据我们提出的基于查询的注意力机制,本文的模型不仅仅能够衡量一个句子与给定查询的相关度,还能够识别出这个句子回答了哪个查询。(3)句子回归框架(Sentence Regression Framework)是抽取式摘要的常用框架之一。现有句子回归框架往往把建模句子的重要性和句子间的冗余性放在两个独立的过程中,忽略了这两者之间的关系。针对此,本文提出了一种新的冗余性感知的句子回归框架。句子回归框架是利用回归模型实现自动摘要的框架,其通常做法是先通过一个打分函数或者模型f(St)来给每一个句子St打一个分,然后在产生最终摘要的时候,再综合考虑每一个句子的得分以及被选入摘要的句子之间的冗余性。本文提出了一种新的框架来同时建模句子的重要性和冗余性。与传统框架不同,新框架直接衡量一个句子St在给定当前的摘要句子集合Ψ的情况下的相对重要性。具体实现过程中,本文提出一种回归模型来拟合基于人工摘要给出的句子的相对得分。新框架相比于传统框架有三个优点。第一,新框架具有冗余性感知能力,不需要将句子的重要性和冗余性放在两个过程中建模。第二,新框架相对于传统框架具有更高的上界,这意味着基于新框架实现的模型有更多的提升空间。第三,新框架没有需要手工调节的参数,这在实践应用中是非常方便的。最终,本文通过大量实验证明了基于新框架的句子回归模型能够超越传统的回归模型。
其他文献
<正> 刘储氏,女,73岁。1983年3月29日初诊。昼日恶寒无汗,夜则发热汗出,已四十余日。患者自今年春节后即罹此疾患,白天恶寒肢冷,自觉如坐于冷水之中,至晚间则但热不寒,口渴思
徽酒的发家史,在某种程度上也是中国白酒营销史。正是基于“营销”二字带来的巨大现实利益,徽酒的战略模式从一开始就是注定了的。
依靠—个小瓶装.酒中酒成功立足湖南,并且10余年保持强劲增长.其成功的秘诀在哪里?当越来越多的企业推出小瓶装酒.是否意味着这样一种规格的产品将拥有无限可能的市场前景?
做乳品难,放弃又心有不甘,这是目前许多乳品经销商的反映。发展非常理想的乳品行业,似乎未能给经销商带来理想的利润。
随着科技和互联网的发展,各个运营商对数据管理和应用需求也在不断增长,而传统的数据处理方式已经不能适应大数据的发展趋势,因此分布式数据库技术应运而生。本文介绍了分布式数据库技术对于大数据的意义,分析研究了有关分布式数据库技术在大数据中的应用。
在青岛试销半年销售额便达到2000万,巨人集团似乎就是要用事实击碎业内对黄金酒的种种猜测和质疑。在3亿元投入换10亿元回报的豪言之下.黄金酒能否在白酒市场淘到真金?
通过阐述超长臂设计中遇到的问题,探讨设计层面的解决方法,以期对缩短研发周期,开发、改装不同长度的超长臂提供指导。
不可否认,“酒是陈的香”——这个白酒自古以来都未曾变化过的诉求主题,在刚刚过去的2006年,得到了高潮般的演绎,只不过表达方式换成了更为时尚的“年份”。
近日,笔者获悉,泸州老窖旗下的浓香经典与永盛烧坊相继吸引了大批优秀经销商加盟,市场拓展迅速,品牌形象全面提升,2007年均实现了100%的增长。对于永盛烧坊的下一步发展,泸州老窖在
随着台湾高梁酒在华南区域市场的升温,台湾高梁酒逐渐被内地消费者熟悉并接受,2008新春伊始,在内地的台湾高梁酒群中又出现了一个新的身影:由台湾琪茫国际集团旗下的台湾金田科技