基于短句序列小说文本复述生成技术研究

来源 :西北民族大学 | 被引量 : 0次 | 上传用户:heck502
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本复述任务使用基于深度学习的自然语言处理技术,可以为生成出来的文本赋予多样性和创造性。其任务目标是让机器使用不同的措辞、表达,将原先的文本复述出来,该过程需要最大程度地保留原文本中的核心语义,并且保证生成的语句通顺。本文提出结合同义词词林和依存句法的词语复述生成以及基于命名实体识别和Laser Tagger的短句复述生成方法,通过学习数据样本之间的多样性及语句流畅度,在最大限度保留原句语义的情况下生成通顺的文本。本文的主要研究工作如下:(1)中文文本复述语料库构建本文旨在对短文本序列进行复述生成,在原有公开数据集北大释义库的基础上进行预处理,筛选出短文本序列,对比模型Word2Vec、Doc2Vec和BERT的文本相似度计算结果筛选出复述程度更高的语句对,为了提高复述资源的可靠性,人工挑选1万句对复述语句,最终模型和人工挑选数据集总数为3万句对。为了增加语料库的数据量以及语料复杂程度、减少实体词在文本复述生成中对句义的影响,采用同义词文本增强来增加语料库的数据量。同时融合LEBRT和CRF来对模型进行命名实体识别,将语句中识别出的实体通过标签约束,使得模型在后续文本生成任务中对实体信息不做更改。(2)基于词语的文本复述生成基于词语的文本复述生成是在原有语句的基础上,对语句中宾语、名词、形容词等词语结构中挖空成槽,通过词语相似度计算来挑选出最优结果进行替换。为了保证原有语句结构不被破坏,结合依存句法识别出句子中的语法结构,确保对替换的词语不会破坏语句的语义和语法结构。(3)结合命名实体识别短句复述生成在原有文本编辑模型Laser Tagger模型的基础上融入命名实体识别,将LEBERT-CRF模型和Laser Tagger模型进行融合,加入命名实体识别标签NER,该标签使得文本中的实体信息在进行文本复述生成的过程中不被修改,减少实体信息的干扰。融合后的模型LEBERT-CRF-Laser Tagger在文本生成的效果相较于Laser Tagger有了一定的提升,同样经过数据增强后的数据集资源也对模型生成效果有了较好的改善。
其他文献
精神健康问题近年来越来越多地出现在公众视野,并逐渐从以医学为主的治疗模式发展为心理学、社会工作等相关专业协作应对的治疗模式。社会工作在介入精神障碍患者康复服务中,不局限于临床方面的康复治疗,更注重患者自身能力的恢复与提升。以复元理论为主导的精神障碍患者康复服务,视服务对象为完整的人,重视其在复元过程的自主性,易于被精神障碍患者与家属接受,而且复元服务对于精神障碍患者回归社会生活具有显著效果。复元力
学位
随着数字化、智能化技术水平的不断提升,人们对智能手机等移动终端设备的需求力度加大。然而,只有极少部分的老年人才能够掌握关于智能手机使用技巧,尤其是对独居老人等较为弱势的老年人群体来说,对智能手机的使用还存在很多问题。信息化时代是在给人类社会带来便捷、高效的同时,也要展现出公平和多元的社会氛围,智能手机带来的便利应当属于每一个人。帮助独居老人提高对智能手机的认知和操作能力,提升老人对智能化社会环境的
学位
电商领域细粒度情感分析主要是针对每条电商平台评论文本中各个属性,即方面的情感倾向进行分析,不再是对整条评论文本进行情感倾向分析,更贴近于用户的实际需求。本文围绕中文电商评论文本对细粒度情感分析进行研究,并在此基础上设计并实现了电商评论细粒度情感分析系统。本文所做的具体工作如下:(1)针对方面情感三元组提取任务中缺乏中文电商评论数据集的基础问题,本文从某电商平台爬取了笔记本电脑领域的5602条评论,
学位
近年来,随着元宇宙如火如荼的发展,虚拟数字人研究也获得了飞跃式进展,并被广泛应用至各个领域。语音驱动的虚拟人脸动画生成技术,旨在给定任意一段语音,生成逼真自然、唇音同步的虚拟人脸动画。一段高质量的虚拟人脸动画的生成需要考虑数据精确度、面部表情的真实性、唇部运动与语音的一致性、视频帧的质量等多方面因素。因此,本文提出了一种基于运动捕捉数据的国家通用语虚拟人脸动画生成方法,通过引入面部捕捉技术获取高精
学位
阅读理解不仅需要理解文本中所阐述的内容,还需要理解字里行间的内容。在自然语言处理领域,诞生了诸多预训练模型,这些模型从开放的语料库中学习到了渊博的知识,从而提升了如问答、智能对话等多领域数据集上的表现。然而,让机器能够理解生活情境常识时,效果却不理想。这是因为现有的模型未能引入、融合常识知识实现机器本身的自我理解。针对这一问题,本论文开展基于生活情境常识的机器阅读理解研究。作为实现机器智能理解常识
学位
由于深度神经网络的出现,自动语音识别技术取得了重大进展。目前最先进的语音识别系统,在某些场景下的识别正确率,已经接近人类水平。然而,这类系统需要大量有标签数据进行训练,限制了语音识别技术在低资源语言上的应用。最近,自监督语音表征模型的研究变得火热,它仅使用音频数据进行预训练,无需配对的文本标签,在各种下游任务上取得了出色的表现。在此背景下,本文工作基于目前最流行的wav2vec2.0和Hu BER
学位
近年来,环境问题日益严重,事故灾难给全世界人民带来了巨大的生命和财产的威胁。我们需要在事故灾难发生的第一时间及时获取第一手的事故灾难信息,作出相应的应对策略,减少损失。事件抽取是信息抽取的一种,对于事件信息的挖掘与抽取具有极为重要的意义。在进行事件抽取任务中,中文的短文本信息在各个词语之间没有自然的停顿,并且中文词语还存在一词多义的现象,因此在抽取的过程中存在触发词与事件类型不匹配和一个触发词对应
学位
随着互联网的不断发展,社交网络已变成网民分享信息、共享知识的首要渠道。社交网络中的信息传播,极大的方便了新技术与新思想的推广。在交互过程中,一个人可以同时隶属于多个群体,这个人作为社区间的枢纽节点,会对信息的传播起到十分关键的作用,进而使网络拓扑结构发生改变。因此,基于社区结构的影响力分析在理解节点的行为特征、揭示网络传播动态以及分析网络拓扑结构具有至关重要的作用。下面为本文主要贡献:(1)在社交
学位
新型冠状病毒肺炎(COVID-19)的快速蔓延导致全球健康危机,给医疗卫生、经济、安全等各方面都带来了巨大的危害。新型冠状病毒的高度传染性、变异性和隐蔽性大大增加了疫情预防和控制的难度。快速检测并且对可能感染的患者进行隔离治疗是抑制COVID-19传播的有效途径。深度学习和医学成像的最新进展表明,计算机从医学图像中提取数据的信息能力取得了进步,进而通过构建计算机辅助诊断系统可以在对抗疾病的检测工作
学位
各大新闻网站、社交平台的文本信息数量与日俱增,自动文本摘要技术可以解决人们面临的信息冗余与快速阅读之间的矛盾,节省时间,提高效率。目前自动文本摘要技术主要分为抽取式和生成式,抽取式自动文本摘要对长文本比较友好,但缺少语义信息,生成式自动文本摘要可以生成新的句子,比抽取式摘要更灵活,但对于较长的文本,可能会因为截断而导致信息损失。本文针对以上问题,分别对抽取式和生成式自动文本摘要进行了研究,同时设计
学位