基于深度学习的文本生成技术研究

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:gfdfh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,人们每天面临着大量的文本信息。为了帮助人们在信息爆炸的互联网环境下,可以快速的找到自己想要的信息。本文我们通过复述生成技术扩展查询项,以此来提高信息检索系统的性能,同时使用自动文本摘要技术对检索返回的结果进行分析和关键信息的提取,并生成一段更简洁的文本。本文我们探究了基于深度学习的文本生成技术,并在复述生成和面向特定领域的自动文本摘要生成任务上开展研究。针对复述生成任务目前存在的训练语料不足,生成的多样性不足等问题我们提出解决方案。针对特定领域的文本摘要生成任务中存在的集外词,长距离关系依赖以及摘要文本结构不符合领域特点等问题我们提出解决方案。本文的主要工作如下:(1)设计并实现一种基于序列到序列的复述生成模型,该模型由特征提取器BERT和文本生成器LSTM组成。具有多层双向注意的特征提取器可以从输入文本中提取深层次的语言特征信息。文本生成器是一个预训练好的语言模型,用于生成复述文本。由于现有的复述语料不足且不平衡,因此复述生成模型通常难以生成流利且准确的复述文本。为了解决该问题,我们通过结合基于特征和基于微调融合训练的方式来训练我们的模型。同时,本文我们提出基于上下文的复述生成方式,使模型可以完成篇章级别的文本复述。在模型预测生成阶段,通过使用多样性集束搜索生成策略代替传统的集束搜索生成策略或贪婪采样生成策略,以此帮助模型复述生成多个表达方式不同的文本。本文在三个不同粒度的数据集上进行实验,结果表明我们的训练模式和生成策略是有效的。训练有素的复述生成模型可以生成多个高质量的复述文本。(2)设计并实现了一种基于序列到序列的独立双编码器的文本摘要生成模型。相比传统单编码器的框架结构,本文我们使用一个独立的编码器去提取现有摘要文本中包含的框架特征信息,然后作为额外的信息去辅助模型生成具有特定模式框架结构的摘要文本。为了解决生成式摘要任务中当原始文本长度过长时而导致的长距离关系依赖问题,我们整个模型的结构完全基于注意力机制。同时我们采用基于字节对编码的方式对数据集进行预处理,以此来解决摘要生成任务中目前存在的集外词问题。本文在公开的特定领域的文本摘要数据集上进行实验,结果表明我们提出的摘要生成模型可以生成高质量的,具有领域模式框架结构的摘要文本。
其他文献
青海省湟水北干渠扶贫灌溉一期工程27标段46#隧洞进口工程地质条件复杂,常规导管及管棚法进行洞口段施工时进尺慢、成型差,且存在较大安全隐患。为此,采用地表预注浆加固技术加
[目的]拟开发一种新的复方制剂,复方丹参降压胶囊由丹参、决明子、地骨皮、牛膝、杜仲、桑寄生、绿茶提取物组方制备而成,具有滋肾养阴,活血化瘀。主用于治疗代谢性高血压;高
简要介绍了真空预压软土地基加固法的设计方法,以及在东苕溪工程地基加固处理中的应用,并对滑动土坡进行加固处理后达到的加固效果进行了分析与说明。
在室外空气质量较差的情况下,使用空气净化器是一种简便有效的提高室内空气品质的方式。静电型空气净化器作为一种目前常见的空气净化器,能够有效去除室内的颗粒物,同时还具
本文认为,九十年代我国乡镇企业生产力运行的特点是“转轨变型”、重心西移、结构优化和城镇化,同时,在运行过程中也存在着不可回避的矛盾,即资金、技术和劳动力之间的矛盾,
目的调查无偿献血人群中隐匿性乙型肝炎病毒的携带率,病毒载量与血清学标志物检出的关系。方法对无偿献血者血液进行ELISA检测后,再行HBV、HCV、HIV核酸检测(NAT)。ELISA阴性、
大新县城区位于向水河畔,地处岩溶地区,城区尚有桃城溪(桃城地下河部分出露形成)。县老城区治涝采用观音山排洪渠对桃城溪进行分洪方案,该方案与高水高排的治涝思路基本一致,但
目的:了解中部某省医学生对于到基层医疗机构就业的意向,并找出影响其意向的因素,为解决当前医学生就业难及基层医疗卫生机构人才短缺的结构性矛盾提供政策性建议。方法:采用问卷
南美白对虾货架期是其品质安全监控管理的重要依据之一。在实际流通过程中,南美白对虾的品质会随着贮运环境的变化而动态变化,而标签在食品包装上的保质期是静态的,如果实际
中国资本市场“同涨同跌”、“板块联动”的现象屡见不鲜,使股价同步性成为学界研究的热点。并且,相对于成熟资本市场较低的股价同步性水平,我国资本市场的整体股价同步性维持较高水平。这些现象从侧面证明了我国证券市场的有效性低,特质信息难以有效地融入股价。管理者能力作为公司管理层的重要特质之一,不仅会影响公司的经营决策,还会影响股价的波动。在如今国有企业转型、民营资本兴起的大环境下,管理者同质化的假设将不复