基于外部知识的多主题词文本生成

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:scsnlaosi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,随着科技的发展和机器计算能力的提升,神经网络和深度学习技术在自然语言处理领域中得到广泛的应用。在自然语言处理领域里,文本自动生成是一个重要且具有挑战性的研究方向。本文旨在根据给定的主题词生成一段可读性强的、主题相关性大的文本,此任务有以下三个难点:第一,输入信息不足。本文中的主题短文生成任务属于文本到文本的生成,在文本摘要和机器翻译这些任务中,原文本的输入提供了足够的语义信息以生成所需的目标文本。但是,主题短文生成任务旨在仅基于多个给定主题词生成段落级文本,输入的仅仅是几个主题词,不能提供足够的源信息。无论是从新颖性还是与主题完整性和主题相关的角度来看,输入信息极度不足都可能导致生成的文本质量低下。第二,生成文本主题完整性和主题相关性不足。前者强调所生成的文章应包含所有输入主题词的这些语义,而后者意味着每个所生成的句子应紧密围绕一个或多个主题。第三,长期依赖问题。在文本生成模型中,长期依赖是指模型在t时刻生成的词语,可能会受很长时间之前模型的状态影响。传统的文本生成模型大部分都是基于RNN,而RNN在处理长文本信息时,如果两个词在长文本中隔得很远,会出现梯度消失问题,导致前面的词对后面的词没有任何影响,无法处理长期依赖问题。针对输入信息不足问题,本文通过引入外部知识库,来提供与主题词相关的外部知识增加输入信息,解决因输入信息不足导致的生成文本质量差的问题。针对生成文本主题完整性和主题相关性不足的问题,本文提出一个主题词权重向量,这个向量可以动态变化,主题词一旦出现过会降低其对应的权重,避免重复出现单一的主题词,再结合Attention机制一定程度上保证了主题词的完整性和主题词的相关性。对于RNN中无法解决的长期依赖问题,本文抛弃了 RNN结构,借鉴RNN权重共享的思想和 transformer 模型提出了 RTN(Recurrent Transformer Network)模型。由于RTN参数相对Transformer少,在解决RNN长期记忆失效的问题的同时,也提高了训练效率。本文基于两个公开的数据集ESSAY,ZhiHu来训练模型,通过BLEU-2评分和人工评估两个方法的评估结果证实本文的模型在多主题词文本生成这个任务上生成的文本质量更好。
其他文献
学位
随着教育信息化时代的到来,在线教育平台得到了大规模的应用。在线教育平台中学习者可以随时随地的进行学习,它打破了传统教育模式,将师生互动的空间从现实中课堂拓展到了网络虚拟空间之中。在线教育平台中,在线课程论坛是一个必不可少的功能模块,常常被用于学生之间和师生之间的交流,即在线课程论坛支持学习者随时随地发布问题,及时地反映他们在学习中遇到的问题。在线课程论坛为学习者提供了学习交流的场所,吸引了很多学习
“课程思政”是将思想政治教育融入课堂教学的各个环节中,实现思想政治教育与知识体系教育的有机统一。本研究在明确把握心理与教育测量课程的思政改革目标的基础上,论述了三种改革途径,将思政元素融入本课程教学中,以强化学生的爱国思想和文化自信、培养学生的社会责任感以及科学严谨的专业态度。为保障课程思政的教学改革效果,教师要认可课程思政价值,不断更新思政理念,以学生兴趣为导向,自然渗入思政元素,以多元教学为手
单细胞转录组测序技术以单个细胞为分辨率测量基因表达值,为解析组织内部异质性提供了机遇。组织内部异质性的研究能够发现新的细胞类型,研究细胞复杂的分化和发育轨迹,并提高对人类肿瘤等疾病的理解。为了更加准确地解析组织内部的异质性,我们需要识别组织内部包含的细胞类型。面对单次实验产生的数千甚至数百万个细胞的测序数据,目前最主流的方法是通过对给定的单细胞转录组测序数据进行聚类来识别细胞类型。虽然已有很多学者
学位
课程思政是落实立德树人任务的重要手段,可以帮助学生树立正确的人生观和价值观,践行社会主义核心价值观。生态学作为生物科学专业的一门核心课程,具有丰富的思政元素,是开展课程思政的良好载体。将OBE理念运用于生态学课程思政建设中,挖掘生态学课程内容中蕴含的思政元素,从课程思政目标优化、教学内容设计、课程教学实施和教学评价等方面构建生态学课程思政体系,并通过教学实践充分发挥生态学课程的育人效果。该课程思政
学位
前不久,住房和城乡建设部发布开展第一批城市更新试点工作的通知,全国21个城市纳入试点,城市更新试点旨在探索建立城市更新统筹谋划机制、可持续模式及配套制度政策。笔者看到,近段时间,一些试点城市公布的城市更新方案,纷纷摒弃了过去常见的“一键重启”式的大拆大建做法,城市更新的观念与行动正在经历从“拆改留”到“留改拆”的转变。
期刊
大数据时代来临,海量的数据促使人们想要高效的挖掘数据和有效的利用数据。聚类算法就是一种常用的数据挖掘工具,在不具备先验知识的情况下,探究数据内在的结构信息和相似关系,通过把多个对象分成不同类簇的方式有效地处理海量数据。因此,它也被广泛应用在各个领域,如:信息提取、模式识别、图像分析、数据压缩和网络安全等。密度峰值聚类算法(Densitypeakclustering,DPC)是近年来比较热门的聚类算
在党百年华诞的重大时刻,发挥党史育人功能优势,推进党史学习教育常态化、长效化,正当其时,确有必要。用好课程教学这一主渠道,将党史学习教育融入课程思政,有助于全员、全方位、全过程提高党史育人成效。面对网络文化、社会环境、教育方式等对党史学习的影响,在“又红又专”的教师队伍引领下,找准党史融入专业课程的切入点,然后展开课程学情分析,完善教学设计,改革教学方法,将专业课程中“隐性”的思政元素“显性”化,