【摘 要】
:
词汇替换任务的目标是在给定的语境中不改变句子含义的情况下,用替代词替换句子中的目标词。国外对词汇替换的研究开展较早,并且已经取得了较多的研究成果。词汇替换一直是自然语言处理领域的重点研究方向,但由于问题的复杂性,汉语的词汇替换问题没有得到很好的解决。随着算法理论和技术不断引入,解决汉语词汇替换问题逐渐成为了可能。本研究的成果可应用到自然语言处理和生成的很多领域,比如词汇简化,词义消歧,摘要生成等等
论文部分内容阅读
词汇替换任务的目标是在给定的语境中不改变句子含义的情况下,用替代词替换句子中的目标词。国外对词汇替换的研究开展较早,并且已经取得了较多的研究成果。词汇替换一直是自然语言处理领域的重点研究方向,但由于问题的复杂性,汉语的词汇替换问题没有得到很好的解决。随着算法理论和技术不断引入,解决汉语词汇替换问题逐渐成为了可能。本研究的成果可应用到自然语言处理和生成的很多领域,比如词汇简化,词义消歧,摘要生成等等领域。文章重点围绕着汉语作文用词方面的词汇替换任务,对其涉及到的理论与实际问题进行了大量探究,首先构建了基于词典的汉语作文词汇替换模型作为基线模型,然后构建了基于神经网络的汉语作文词汇替换模型,并在取得研究成果的基础之上,开发了汉语作文词汇替换辅助系统,其主要目标是将文本中不适合上下文或者写的不够精彩的词语识别并进行替换,从而提高作文质量。本文主要内容和创新点如下:(1)为了解决汉语词汇替换研究所需数据集匮乏的问题,构建了汉语词汇替换的数据集。针对汉语作文用词方面的词汇替换,本文采用HSK中的中级和初级词汇和国家语言委员会的现代汉语语料库和中文翻译语料库作为构建数据集的来源。参照英文词汇替换数据集的构建,遵循提出句子,提供替代词和合并注释的构建步骤,创建了汉语作文词汇替换数据集ch LS,数据集大约2000条数据,能够很好的应用于汉语词汇替换的研究。(2)为了解决汉语作文方面词汇替换研究匮乏的问题,对汉语词汇替换进行进一步研究,本文借鉴了英文词汇替换任务所用的方法,提出并构建了基于词典的汉语词汇替换模型作为汉语词汇替换研究的基线模型,为了提高汉语词汇替换的效率,本文又构建了基于上下文感知词嵌入的汉语词汇替换模型,基于Bert语言模型的汉语词汇替换模型和基于融合的汉语词汇替换模型来提高汉语词汇替换的替换效率,在汉语作文词汇替换数据集ch LS上实验结果表明,本文提出的用于汉语词汇替换的模型取得了比较好的效果。(3)为了使汉语作文词汇替换的研究得到很好的应用,本文将基于词典的词汇替换模型和基于神经网络的词汇替换模型相结合,设计并实现出一款使用Flask框架和B/S架构的汉语作文辅助词汇替换系统。系统会自动替换作文中不适合上下文和不精彩的词汇并生成一份个性化报告提供给用户。
其他文献
本课题来源于山东省军民融合重点研发项目,应合作单位需求,为解决复合涂料人工混合、施工存在的效率低、废料多、搅拌阻力大、适用期短等弊端,提高施工自动化程度,开展复合涂料混合装置关键部件的分析与研究工作。首先,基于CFD理论,分析涂料混合过程需满足的守恒定律,建立CFD模拟的基本方程。分析混合过程中涂料微元体与销钉的相互作用,结合复合涂料挤出流场的流动特性,得出混合销钉对涂料的作用力及消耗功率。分析内
微塑料是一种新型污染物,在不断研发与使用过程中不可避免的进入市政污泥处理系统,并对污泥组分、重要生化反应酶活性以及微生物群落多样性等方面产生潜在抑制作用。厌氧发酵技术是污泥处理中运用最广泛的技术。目前,关于微塑料对污泥厌氧发酵产酸和磷释放的影响却鲜有报道。因此,开展微塑料对污泥厌氧发酵产酸和磷释放的影响及机制,以及这两者相互影响的作用机理的研究是十分必要。首先,针对剩余污泥中微塑料含量最高的聚乙烯
湿载耦合作用下非饱和膨胀土体变行为较为复杂,开展其系统的体变行为本构描述对于膨胀土工程具有重要的学术意义与应用价值。本文基于系统的荆门黄褐色膨胀土原状样、压实样、泥浆固结样的干缩、饱和/非饱和一维/各向等压压缩、湿胀、卸荷体胀以及土水特征试验成果,总结其水力耦合状况下体变行为规律;标定其Fredlund、BBM、SFG非饱和体变模型参数,再现其体变行为。评价各模型描述其体变行为的能力,探讨各模型的
异戊二烯是合成橡胶工业生产的重要来源,采用微生物发酵法,经由甲羟戊酸(MVA)途径合成异戊二烯是一种绿色、可持续的方法,受到越来越多的关注和研究。基于微生物细胞策略合成异戊二烯面临着一个主要问题:有毒中间体的产生或营养物质的限制可能影响目标产物的产量和细胞生长,且胞内反应复杂不可控,限制了其在合成异戊二烯方面的发展。对发酵法生产异戊二烯进行外场强化,打破目前单独采用发酵法存在的产量低等瓶颈问题,是
随着云计算、物联网和5G等新一代通信技术的成熟,以Web服务为代表的大量网络服务被发布在各类云平台,面向服务架构(SOA,Service-oriented Architecture)的软件开发和部署模式得以广泛应用。通过调用已有的服务,可以快速地构建一个新的业务系统,对于一些复杂的服务请求,可以通过服务组合构建服务流程的形式来实现需求响应。然而,由于服务位于动态变化的网络环境中,处于运行中的个别服
信息时代的到来,造就了人工智能技术的迅猛发展,其成果应用到社会的方方面面。智能问答作为人工智能领域的一员,创新与发展并行不悖,依托该技术便捷、高效、准确等优点,智能问答成为目前获取信息的重要途径。市面上典型智能问答设备有小度、小爱、天猫精灵等,但是目前缺乏针对退役军人这一群体的智能化项目,设计一款智能问答系统来为其服务,可更好的响应目前国家对于退役军人这一群体的重视,锚定大方向的方针政策,因此退役
随着海上贸易日益发展和人力成本的大幅提升,自动化码头快速发展。自动导引车(Automated Guided Vehicle,AGV)的路径规划问题是规划指定起点和终点间最短路径的问题,是提高自动化码头运转效率的重要一环。本文第一章介绍AGV路径规划问题和研究现状。第二章回顾经典的图搜索类算法——A*算法,重点介绍考虑时间维度的距离-时间启发参数下的Time_A*算法。第三章基于Time_A*算法,
无人驾驶面临道德算法困境:在特定事故场景中面临不得不依靠算法选择受害对象的道德困境时,是选择牺牲少数人还是多数人、牺牲高风险还是低风险区域中人、牺牲自己还是他人,其道德算法应该怎样制定?与此相关的功利主义、利己主义、康德义务论等道德理论均存局限;美国的“道德机器”实验未为无人驾驶道德困境提出具体算法规则,且还未涉及自我牺牲、区域风险性大小等场景。分析显示,求解上述道德困境须以马克思主义实践观为理论
阅读是语文教学的重要环节,阅读教学旨在培养学生的阅读能力,即教师在确定教学目标和内容,选择教学方法和设计阅读教学环节时,应帮助学生形成这种阅读能力。阅读能力的关键是思维,学生思维习惯的养成在于解决问题链的过程,因此问题链的优劣影响教学的质量和水平。问题链设计是否合理关乎教学设计的好坏。如何设计出具有思考性和指导性的问题链需教师在整体处全盘把握和细节处精心考虑,建立学生与文本之间的桥梁,引导学生深入
分形设计算法是一种数学与设计跨学科结合的设计技法,在如今,有许多的设计作品运用到分形图形和计算机算法。然而,由于分形设计算法是随着计算机技术成熟,在近十年来才被广泛应用的设计方法,其理论体系仍不够系统,应用手法也不够完善,仍有不少亟待解决的问题。此外,目前国内关于分形设计算法的研究更多是停留在计算机科学与程序设计等技术层面上,极少与视觉效果、美学特征相结合的研究,且没有与视觉空间相关的研究,存在一