基于深度学习的文本连贯性方法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:mumurong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本连贯性研究在文本生成和文本质量评估等自然语言处理领域发挥着重要的作用。近些年来,随着互联网技术和社交媒体的迅猛发展,文本数据的数量呈指数级爆炸增长。然而,文本数据的来源众多,有的是人工撰写的,也有的是计算机自动生成的,文章的质量参差不齐,不通顺连贯的文章会引发歧义并影响可读性。因此,如何有效地对文本的连贯性进行建模和评估,从而让多语句的文本在逻辑上和语义上更加有意义,对于提升文章的质量至关重要。文本连贯性研究的两个核心要素包括了句子内容的理解和句间关系的挖掘,本文相应地提出四个研究点:针对每个句子,本文高效地提取句子特征,准确地捕捉句子的含义。针对句子之间的关系,本文避免模型受到句子输入顺序的影响,稳定可靠地学习句子之间关联信息;本文还利用预训练语言模型的优势获得句子间的相对顺序信息,从而有效地挖掘所有句子的依赖关系;本文也显著降低关系建模时的计算成本,以建立更加实用的连贯性模型。围绕上述内容,论文形成了“两个核心要素—四个研究点”的连贯性研究框架,通过设计一系列新颖的端到端的深度学习模型对文本连贯性进行全面的建模,同时提高网络的性能和计算效率。论文的主要贡献如下:1.为了在文本连贯性评估中更高效地捕捉每个句子的特征,本文提出了以卷积神经网络为基础的连贯性评估方法。模型创新地采用卷积神经网络学习句子分布式表达,有效地提取出句中重要的语言学特征。同时,本文还考虑了句子之间的关联信息,通过计算相邻句子向量的相似性来学习上下文内容与结构,从而对文本连贯性进行多方面的考量。本方法不需要复杂的预处理操作,更简单方便。模型在连贯性鉴别式任务实验上获得了最佳结果。2.为了防止句子排序模型在理解文本内容时受到错误的句子输入顺序的干扰,本文提出了以自注意力机制为基础的句子排序方法。该方法首次将自注意力机制引入排序模型中,利用自注意力函数分析句子间的语义关联并挖掘逻辑结构,捕捉全局依赖信息,有效地避免网络在为所有句子构建表示时受到句子输入顺序的影响,更加稳定可靠。本方法在句子排序任务和连贯性鉴别式任务的实验上都证明了其优异的性能。3.为了在句子排序时获得更准确的句子相对顺序信息与深层次的语义关联,本文提出了以预训练模型为基础的关系增强型句子排序方法。此方法充分利用预训练语言模型的优势,挖掘句子对的语义内容与逻辑关系,精准地预测句子之间的相对顺序。本文将此重要的信息同时融入编码器与解码器之中,从而全面地增强整个网络的连贯性建模能力。实验显示本方法取得了最出色的句子顺序预测结果。4.为了克服先前的句子排序工作存在的计算成本大、运行时间长的问题,本文提出了基于模型加速的高效关系型句子排序方法。该方法首次将语言模型加速思想和排序任务相结合,设计了轻量化的分解-融合型语言模型结构,采用分解和信息共享策略快速捕捉句子间相对关系,并引入多种知识蒸馏技术作为监督信息,使模型保持出色性能的同时显著地提高计算效率。本方法在三个连贯性任务的实验上展现了其优越性和通用性。
其他文献
成熟的雌配子体即成熟胚囊是被子植物进行双受精产生种子的场所,因此阐明胚囊发育的调控机制具有重要的科学意义和实践价值。但由于胚囊深埋于被子植物的雌性生殖器官胚珠中,对其发育机制的研究存在一定的挑战,一直是植物生殖生物学研究领域的前沿热点。高等植物双组分信号系统包括细胞膜上的组氨酸激酶(Histidine kinases)、胞内的组氨酸磷酸转移蛋白(Histidine phosphotransfer
学位
党的二十大报告集中了全党与全国人民的智慧,是一份全面系统科学的政治报告。报告中曾5次提到党的“自我革命”,体现了习近平总书记关于党的自我革命的战略思想,折射出党的自我革命成就了中国共产党的理论逻辑,揭示了党自我革命的重要意义,明确指出推进党的自我革命的一系列重要举措,为加强党的长期执政能力建设提供了根本遵循。
期刊
报纸
研究目的运动诱发性支气管痉挛(Exercise-induced Bronchoconstriction,EIB),严重影响了运动员的身心健康与运动表现,并已在国际上引起了广泛关注,但是,我国运动员的EIB问题鲜有被关注。传统的EIB治疗方式——EIB药物治疗,既危害运动员身心健康,又极易造成兴奋剂问题。因此,如何寻求一种更加安全、健康的EIB治疗方法,替代EIB药物治疗或降低对其依赖度,是近年来体
学位
氮素是作物生长的必需元素,也是作物产量的限制因子之一。然而,氮肥的过量施用造成了严重的环境污染,且加重了农业生产的经济负担。农业生产亟需减轻对氮肥的过度依赖,而培育具有高氮素利用率的作物品种是一种积极有效的方法。因此,深入研究耐低氮作物的生理及分子机制,对培育高氮利用率作物品种具有重要的指导意义。青稞是我国青藏高原特有的种质资源,因长期对高原环境的适应,对贫瘠土壤也具有较高的耐性。本研究以青稞(昆
学位
科研诚信是科学研究的灵魂,是一个国家或地区科技发展的必要条件。欧美国家科技创新的迅速发展,在很大程度上得益于完备的科研诚信制度。在科技界,科研诚信培育是一个全球性的难题,已成为世界各国促进科技发展的一个共同目标。近十年来,全球连续举行五次世界科研诚信大会,表明科研诚信在当今科技、经济和社会发展中的影响日益增大。我国科研诚信水平并不高,在科技活动中存在着许多科研不端事件,不仅损坏了我国的学术声誉,也
学位
近年来地理学开始关注情感对空间和社会的塑造,由此引发地理学的情感转向,给旅游地理学带来新的活力,有助于旅游研究理论体系的建设。乡愁的重要情感源头是乡土记忆和地方文脉。在我国新型城镇化和乡村振兴的战略背景下,传统村落成为人们寄托乡愁的地方。以往的乡愁研究局限在外游子、海外移民等群体,针对近年来城镇化的快速发展,乡愁研究不应忽视在地居民和游客群体。因此,如何正确认识新型城镇化背景下传统村落居民和游客的
学位
随着交通量的不断增长,沥青路面疲劳破坏日趋严重,如何延长路面的使用寿命、减少因维修或重建而导致的资源浪费成为行业研究热点。研究显示,提升沥青及沥青混合料抗疲劳破坏性能是解决上述问题的重要方法之一,而沥青改性则是提升其抗疲劳性能的有效途径。目前,沥青改性剂种类繁多、性能各异,而RCA(复配双改性添加剂,Rock Compound Additive,以下简称为RCA)高模量改性沥青可解决常规SBS改性
学位
铝合金材料具有比强高、耐腐蚀、变形性能好、容易挤压成形、耐低温的优点。采用铝合金材料加固钢筋混凝土梁结构,在提高承载力的同时具有很好的延性和耗能能力,特别适用于侵蚀环境及寒冷环境下的加固工程。对铝合金加固钢筋混凝土梁结构进行研究,是钢筋混凝土结构加固理论有益的探索和完善。作为铝合金板加固钢筋混凝土梁的研究基础,对铝合金板与混凝土的粘结性能进行了试验和理论研究。进行了 129个试件的铝合金板与混凝土
学位
研究背景及目的骨形态发生蛋白2(Bone morphogeneticprotein2,BMP2)在骨发育、稳态及再生过程起到关键作用。尽管重组人工BMP2蛋白(rhBMP2)已用于临床骨折治疗及脊柱融合,但其可能会引起异位骨化、破骨细胞异常活化造成的骨溶解、骨囊肿等一系列并发症。解析BMP2的作用机制,在此基础上增强内源性BMP2功能十分关键。本课题组前期研究发现只负责GPCR信号转导的G蛋白抑制
学位