【摘 要】
:
随着人工智能的蓬勃发展,深度学习以其优异的特性被广泛应用于自然语言处理领域。文本生成任务作为自然语言处理领域中的热门话题之一,目的是从海量文本数据分析中获得有用信息,再根据这些信息提炼出重要内容。在这些文本数据中,根据数据的长度可分为短文本和长文本。现有的大多数方法均面向短文本信息,而对于长文本信息的有效处理仍缺乏深度研究。在该背景下,本文主要结合输入长文本数据无法充分学习全局语义信息与长文本摘要
论文部分内容阅读
随着人工智能的蓬勃发展,深度学习以其优异的特性被广泛应用于自然语言处理领域。文本生成任务作为自然语言处理领域中的热门话题之一,目的是从海量文本数据分析中获得有用信息,再根据这些信息提炼出重要内容。在这些文本数据中,根据数据的长度可分为短文本和长文本。现有的大多数方法均面向短文本信息,而对于长文本信息的有效处理仍缺乏深度研究。在该背景下,本文主要结合输入长文本数据无法充分学习全局语义信息与长文本摘要无法保证语言精练或缺少关键信息的问题,开展了面向长文本数据的文本生成方法研究,主要工作如下:(1)针对传统生成对抗网络的判别网络面对长文本时无法充分学习到全局语义信息,提出了一种基于多头自注意力机制的长文本生成对抗网络模型。该模型采用多头自注意力机制作为特征提取器提取预处理后的文本特征向量,该特征向量涵盖输入文本的全局语义信息,增强了模型的特征提取能力,同时使用门控循环单元编码文本序列,得到当前词的编码特征并与被编码后的特征向量共同预测下一个词。实验表明,本文提出的模型提取到的特征向量包含全局语义信息,从而更加有效地提高长文本生成质量。(2)针对抽取式文本摘要生成的长文本摘要不够精炼,以及生成式文本摘要生成的长文本摘要缺少关键信息的问题,提出了一种基于Transformer的混合式长文本摘要模型。通过抽取式模型对原文的关键信息进行分析并提取,删除大量冗余信息,仅保留与标准摘要最为相关的语句,使用BIO标签辅助生成式模型对预测概率高的词进行连续复制,使得生成的摘要保留更多的关键信息。实验表明,本文提出的模型可以从原文中获取更接近目标摘要的关键信息并进行改写,有效地解决了长文本摘要无法保证语言精练或缺少关键信息的问题,使得生成结果更接近标准摘要。(3)为了适应长文本生成在实际应用中的需要,根据上述提出的两个模型,设计了长文本自动生成系统。并对系统总体设计和主要功能模块进行详细介绍,最后分别展示了摘要生成模块在中英文新闻领域和文本生成模块在中英文诗歌领域上的具体实现。
其他文献
<正>"十二五"规划中我国对海上风电的规划目标是到2015年投入运行海上风电装机容量500万千瓦,目前海上风电发展速度比较缓慢,截止2013年底装机总量达到了38.9万千瓦,与500万千瓦的差距比较大,按照目前的发展程度在到2015年很难完成这个目标。由于海上风电上网电价一直不明朗,加之海上风电涉及海洋部门、渔业、能源、国防等多个部门,风电场规划与海洋功能区划、海岸线开发规划、国防用海规划等协调难
为提高矿山磨矿效率、实现节能降耗,以某铁矿高压辊磨—预选精矿为研究对象,分别采用球磨机和塔磨机为粗磨设备开展磨矿试验。结果表明:(1)采用球磨机磨矿,磨矿时间为200 s时,新生成-0.074 mm产品的能耗为150.08 k W·h/t,磨机-0.074 mm利用系数为0.586 t/(m~3·h);采用塔磨机磨矿,磨矿时间为600 s时,新生成-0.074 mm产品的能耗为138.53 k W
目的 探究甘精胰岛素联合甲巯咪唑治疗2型糖尿病合并甲亢的安全性。方法 选取2020年11月—2021年10月该院收治的94例糖尿病伴甲亢患者,随机分为研究组与对照组,对照组实行甘精胰岛素+格列美脲片治疗,研究组实行甘精胰岛素+甲疏咪唑,对比两组患者血糖控制情况,糖代谢紊乱、低血糖、甲亢高代谢的发生情况,胰岛素使用剂量、血糖控制达标时间、住院时间等。结果 研究组不同时间节点血糖水平均低于对照组,差异
文章分析了建立健全金融纠纷多元化解机制的意义,提出广西在面向东盟金融开放门户建设中构建金融纠纷诉前调解与非诉化解社会参与机制,健全金融纠纷多元化解的对接平台机制、监管协作机制、诉前调解机制、高效运行机制等,为广西经济社会高质量发展提供法治保障。
<正>研究《诗经》,众人皆知风、雅、颂,但“三颂不如二雅,二雅不如十五国风”之说和该说产生的缘由,恐怕并非每一个人都能说得清。下面,笔者对这一说法在中学语文教学中的体现做一探究。教材选文是显证先从教材的角度探讨“三颂不如二雅,二雅不如十五国风”之说。以统编教材为例,初中教材里《诗经》选文始自八年级教材,