基于深度学习的自动文本摘要算法及应用研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:winterdxm7124
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
技术可以从一篇或多篇文档集合中得到总结文章主旨信息的简短摘要,并要求在遵循事实的前提下保持一定的流畅性。基于深度学习的自动摘要方法更接近人们总结摘要的思想,但其研究深度还远远不够,有待进一步深化。本文主要研究基于深度学习的单文档生成式自动摘要,并完成以下工作:(1)应用文本主题信息的短文本摘要研究。提出一种基于注意力机制和双向长短记忆神经网络的主题信息增强的自动摘要模型,并导入指针机制以避免OOV问题;加入覆盖机制,抑制生成摘要重复。在英文摘要数据集CNN/Daily Mail上的实验结果表明该模型与基线模型PGN相比,ROUGE-1、ROUGE-2、ROUGE-L指标分别提升了0.51%、0.73%、0.44%,得到信息丰富、可读性强的摘要。(2)基于BERT词向量表示的短文本摘要研究。为了解决一词多义现象可能导致语义错误和误差传播问题,提出一种融合BERT词嵌入表示和强化学习增强的中文短新闻生成式摘要模型。通过解码器端将BERT预训练语言模型抽取出的BERT句向量作为补充特征以获取更多的语义信息;并在训练后期针对不可微指标ROUGE采用强化学习方法优化模型以避免暴露偏差问题。在两个中文短新闻摘要数据集上的实验结果表明该模型ROUGE-1,ROUGE-2和ROUGE-L的评估结果分别达到了39.46%,26.28%,35.84%和43.89%,33.70%,39.95%,均优于其他对比模型,能够生成结构连贯、语句流畅的摘要。(3)长文本摘要的研究。针对前面所提模型因自身结构限制,只能对过长文本直接进行截断处理,在长文本摘要问题上表现欠佳,提出一个两阶段的自动摘要模型。抽取阶段通过两个不同的层次模型:句子指针网络和句子分类器,提取文档重要句子;生成阶段利用关键句调节BART模型的相关信息生成摘要。在科技论文长文本数据集ar Xiv和Pubmed上与验证所提模型的实用性和有效性。
其他文献
国家黄河流域生态保护和高质量发展规划提出要在黄河流域开展山水林田湖草沙综合治理。西北干旱、半干旱区地域辽阔,在长期历史演变中因为经济发展、资源开采、人口增长等诸多因素,土地利用格局发生巨大变化,但生态环境脆弱,资源承载力低,尤其是水资源利用粗放,加之土地资源的不合理利用,导致西北地区土地荒漠化问题突出。文章立足生态文明建设视角,从“发展与保护、存量与增量、城市与乡村”这三大关系切入,分析区域土地利
学位
为什么中国官方在宣传中使用网络亚文化话语的同时,又在打击创造这一表达方式的群体?本文认为使用亚文化话语进行宣传的目的是应对外部负面信息。随着“信息全球化”与“全球信息化”的兴起,政治传播不仅关乎着国内的社会舆论,也与国际宣传和公共外交密切相关。在这样的情况下,国家政治安全的威胁已不再局限于传统意义上的军事入侵等因素,还有由信息化所带来的意识形态冲突与冲击,外来的负面信息不仅会影响国家的国际形象,同
学位
随着中国老龄化进程的不断加快,老年人抑郁正在成为备受关注的议题。作为生命历程中的重要事件,生育行为一方面改变了父母的社会角色,为父母带来一定程度的生育损伤、经济压力以及养育压力;另一方面,“养儿防老”等中华传统观念也预示着子女可以为父母在老年时期提供代际间经济支持、生活照料以及情感交流等,这些因素都会对老年人抑郁的最终表现发生影响。在中国低生育率与老龄化交织的背景下,关注子女结构对老年人抑郁的影响
学位
In 2020,more than 80 million people around the world have been forced to flee their homes and become refugees.The number of war refugees is rapidly increasing as conflicts over power and border issues
学位
The weaponization of cognitive technologies is fueling emergence of the sixth strategic domain of warfare that renders human consciousness into a battlespace.The increasing sophistication of such tech
学位
As the U.S.is among the world’s top emitters of greenhouse gases(GHGs),it is vital to sustained climate change mitigation that successive presidential administrations establish and maintain consistent
学位
Ethnocentric Politics have made it vigorous and potentially so devastating that the execution of ethnicity has become the significant base of numerous problems,conflicts,and revolts in the weak states
学位
The aim of this research is to highlight the active role of Morocco in promoting South-South cooperation in Africa as a new emerging actor.Throughout its history,Morocco has continuously stressed the
学位
随着人工智能的发展,智慧医疗已成为目前炙手可热的智能应用领域,在医学图像处理方面发挥着重要的作用。医学影像成像技术在临床医学领域的不断发展,使得人们对图像的依赖性逐渐增强,对诊断的准确率需求不断提高。因此,医学图像处理技术依然有很大的提高和发展空间。其中图像分割一直是该领域的突破点,尤其是针对脑部核磁共振这类灰度不均、存在部分容积效应、既模糊又复杂的图像,很难获得较高的精度。由于每个人脑内部组织存
学位
极限学习机(ELM)原理是利用一种基于单隐层前馈网络的学习算法,采用随机的方法确定输入层和隐含层之间的权值和偏置,通过分析的方法则可以进一步确定了输出层的权值,ELM克服了存在于基于梯度网络算法上的很多不足,如陷入局部极值、不合适的学习速率、学习速度较慢等,但ELM也存在着过拟合的隐患且单个算法稳定性相对较差。本文对此的研究工作如下:针对上述问题,本文提出了多样性正则化极限学习机的集成模型(DRE
学位