中文文本摘要自动生成方法研究

来源 :山西大学 | 被引量 : 3次 | 上传用户:wumin0371
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能的大爆发,信息过载问题已经严重影响了人们高效便捷的生活方式。文本自动摘要技术主要是利用一定的方法将较长的文本内容压缩为简明扼要的短文,从而帮助人们快速找到自己需要的信息。对于中文自动摘要来说,现在的技术都没能达到理想的结果,且主要集中于对抽取式摘要的研究,而且生成式摘要的结果读起来不通顺、不连贯,涵盖信息不全面。因此,本文提出了抽取与生成相结合的混合模型,即基于BERT对文档全文进行抽取式摘要,然后将抽取到的句子送入生成式摘要模型中进行摘要的生成。本文主要研究内容有:(1)基于BERT的摘要句抽取大多是利用浅层的文本特征来对基本语义单元进行打分,而后依据得分确定句子的权重,由于忽视了文本的上下文信息,抽取得到的摘要句连贯性差。针对这一问题,本文使用基于BERT的摘要句抽取模型,学习和开发深层次的语义特征,用向量表示文档的每一个句子,得到每个句子的分数并从大到小进行排序,抽取出分数较高的句子作为摘要。(2)融合核心词注意力机制的摘要生成方法中常见的未登录词和重复词问题,本文通过使用指针网络和覆盖机制对Seq2Seq+Attention模型进行了分析改良。并在此基础上,针对生成的摘要主旨信息表达不全面的问题,提出了融合核心词注意力机制的摘要生成方法。(3)基于混合模型的摘要自动生成由于Seq2Seq模型对于长文本会产生数据截断,从而导致信息丢失,所以融合抽取和生成两种方法,得到摘要自动生成的混合模型。首先,利用BERT抽取模型,抽取出文章中的重要句子构建摘要句集;然后,以摘要句集作为输入,利用融合核心词注意力机制的摘要生成方法自动生成摘要,实现了抽取式方法和生成式方法的结合。
其他文献
百年大计,教育为本;教育大计,教师为本。近年来,国家在教育事业上不断革新与发展,力图形成高素质专业化创新型的师资力量,与此同时,社会各界对于教师的综合素养以及专业教学能力的要求也在不断提升。教学技能成为了衡量教师综合素养的重要标志,师范生作为未来人民教师的后备力量,能否胜任高要求的语文课堂教学,直接取决于其是否具备高水平的教学技能。因此,作为教师培养摇篮的高等师范院校自然也承担着十分关键的重任,国
桃小食心虫在我国温带水果主产区广泛分布,严重威胁水果出口贸易。为明确纯磷化氢熏蒸处理桃小食心虫的可能性,本文系统研究了纯磷化氢在不同温度条件下对桃小食心虫的毒力。
切实有效地实施艺术教育,改革学校艺术教育中旧的不合理的因素,关键在优化学校艺术教育的各种管理要素,使之联系协调,结构合理,功能发挥最佳。
农村集体产权制度关系到农民权益、农业发展和农村稳定。当前农业经营的外部环境和经营方式正发生重大变化,泰安市以激活经营权为目标创新农村集体产权制度,以确权为基础稳定
农村土地资本化改革是盘活农村土地资产、实现农业集约化生产、提高农业生产效率以及增加农民财产性收入的有效制度创新。通过对农村土地信托、农村土地股份合作社以及农村土
人的全面发展是个历史发展过程,马克思主义把人类关于人的全面发展的考察从空想变成了科学.认真落实'三个代表'思想推进人的全面发展.素质教育是人类最终全面地、科