汉语句法分析中数据增强方法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:sarah_zld
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句法分析是自然语言处理中的一项基础核心技术,其目标是根据给定的语法理论,自动识别分析句子中各种成分之间的关系,最终得到句法树,在机器翻译等自然语言处理任务中有着广泛的应用。当前主流的神经网络句法分析模型依赖大规模标注数据,但是由于汉语不像英语有丰富的词性变化等表层信息来表示句法结构,导致汉语树库规模较小,人工标注成本高,短期内难以扩大。因此,如何利用现有的标注树库自动进行数据增强成为研究的焦点。在汉语句法分析的数据增强任务中,对于给定的标注树库,要求数据增强所生成的句子满足如下条件:第一,要求生成句具有多样化的句法结构,并保证其句法树结构的完整性;第二,要求生成句具有正确的句法结构标注;第三,生成句的语义要合理,即保证生成句符合语言表达的习惯。针对汉语句法分析中数据增强的这三个需求,本文工作和贡献总结如下:(1)提出基于词汇化树邻接语法的数据增强方法。词汇化树邻接语法是计算语言学中的一种重要形式语法,基于该语法可以在句法树之间进行“接插”和“替换”的操作,从而推导生成新的句法树,并且有语言学的知识保证其生成的句法树符合语法规则且具有正确的句法结构标注,能够很好地满足句法分析中数据增强的前两个需求。因此我们基于词汇化树邻接语法,设计实现词汇化树抽取算法与句法树合成算法。同时,我们分析总结汉语树库中相对英文树库所特有的一些表达方式和句法标注体系,在算法层面对词汇化树邻接语法进行“剪枝”优化,避免生成句引入过多的噪声。我们基于公开的数据集CTB5.1进行数据增强,并通过该方法基于原训练集的18k数据构建了338k的增强数据,最后进行小样本和鲁棒性的实验。在小样本的数据增强实验中,使用该方法得到的增强数据使依存句法分析模型和成分句法分析模型的精度分别提高1.4%和2.12%。在鲁棒性的实验中,我们人工挑选出86个生成句构建扩展测试集并进行实验。实验结果显示,使用数据增强后,依存句法分析模型和成分句法分析模型的精度分别提高1.02%和0.38%,说明该数据增强方法能够有效提高句法分析模型的鲁棒性。(2)提出基于语言模型的语义合理性评估方法。语言模型是一种基于概率的判别模型,即通过概率判断一个句子的语义合理性。因此针对句法分析中数据增强的第三个需求,本文提出利用语言模型对生成句进行语义合理性评估,从而筛选出语义合理的句子作为最终的增强数据。本文分别设计实现了n-gram语言模型与RNN神经网络语言模型,将词汇化树邻接语法所获得的338k个生成句筛选为105k和94k的数据规模,最后进行小样本和鲁棒性的实验。在小样本实验中,使用该方法得到的增强数据使依存句法分析模型和成分句法分析模型的精度提高1.6%和2.14%。同时,在鲁棒性实验中,依存句法分析模型和成分句法分析模型在扩展测试集中的精度分别提高1.43%和0.44%,表现出更好的鲁棒性。综上所述,针对当前汉语标注树库不足的现状和句法分析中数据增强的需求,我们提出基于词汇化树邻接语法的数据增强方法,并结合语言模型,基于当前18k的训练集分别构建了338k、105k和94k的增强数据,最后在公开的数据集上进行实验对比分析,实验结果表明,该方法能够有效提高当前神经网络汉语句法分析模型的性能和鲁棒性。
其他文献
随着汽车保有量的不断增长,智能交通已经深入我们的日常生活,车牌检测作为智能交通中重要的组成部分同样得到了飞速的发展,为城市公共交通的规划与出行带来了极大的便利。由于汽车所处环境极其复杂,为车牌检测识别带来了很大的困难,通过分析大量车牌数据得出光照是影响车牌检测识别的主要因素。通过对车牌识别场景中的实际问题和车牌图像的数据特点的分析,本论文以卷积神经网络为基础框架,重点研究车牌识别过程中的低光照增强
随着互联网技术的日益普及和医学文献数量的快速增长,医学文献数据量呈现爆炸式增长,但大量医学文献数据大多以结构化方式存储,有着不易提取,人工标注成本高昂等特点。在医学文献中,文献摘要记录着重要信息,如何根据大量的医学文献摘要抽取重要的循证医学数据,并分析从而开发合成新的药物来治疗疾病变得愈发重要。医学文献命名实体识别,作为自然语言处理的基础和重要的任务,可以从非结构化的医学文献中抽取规范的实体,可以
随着当今社会信息化和智能化的迅速发展,利用计算机实现以人为中心的各类分析成为了可能。在人机交互、视频监控、医疗防护等应用场景中,准确的人体解析、姿态估计以及进一步的行为识别都是至关重要的。本文使用深度学习的方法,通过对现有的以人为中心的各类分析方法进行研究,寻找其中的不足之处,提出了相应的改进方法。本文的主要研究内容如下:(1)提出了一种用于人体解析的类别感知网络。针对现有人体解析模型的提取特征方
命名实体识别(NER,Named Entity Recognition)是自然语言处理的热点方向之一,目的是识别文本中的命名实体,并将其归纳到不同的实体类型中。命名实体识别是自然语言处理的基础任务,其结果能有效应用于信息抽取、问答系统、文本分类等各项后续任务。命名实体识别的准确度将直接影响自然语言处理中后续工作的表现。随着深度学习的发展,基于长短期记忆网络(LSTM,Long Short-term
作为基础工程的建筑工程建设,在社会经济发展水平中占有至关重要的地位。但是在传统的工程管理模式下,成本控制不是各参与方最关心的问题,而施工方在竣工结算时又想将工程经济效益最大化。因为从设计阶段开始就没有一套规范的项目成本控制流程,施工过程中工程变更屡见不鲜,工程索赔更是常有发生,工程窝工、大规模的赶工期也经常发生,这些现状在传统工程管理模式下会造成工程资源的大量浪费,包括人力、物力、财力。而BIM5
当前随着区块链技术的迅猛发展,区块链机器共识的可靠性日益受到全球各个国家和企业的广泛重视和应用。在中国,区块链技术已经被中央政治局提升到“核心技术自主创新的重要突破口”,以及被国家部委加入“新基建信息技术基础设施”的国家战略高度。很明显区块链技术的重要性越发突出,未来可能会被广泛应用于各行各业。国内很多科技企业都积极关注和发展区块链技术,致力于能在区块链领域有所创新,致力于更深度的区块链落地应用,
信息技术的发展带动了数字医疗的高速发展。数字医疗作为新颖的、现代化程度高的信息化医疗方式,改变了医疗数据的存储与共享方式,极大地促进了医疗发展。在医疗系统实施信息化建设的过程中,如果直接把重要的敏感医疗数据放在云服务器上,当服务器遇到不法分子攻击时,一些重要的数据极有可能被泄露。进而产生隐私信息被非法售卖等一系列的连锁问题。区块链技术具有分布式共享全局账本,公开透明,去中心社区化等优势,能够很好的
随着我国高速铁路的迅速发展,高速列车长期处于高速、重载与高密度的运行条件下,使得钢轨表面的磨损日益严重,可能会引发严重的安全事故,因此钢轨廓形的检测分析及其磨耗测量逐渐成为了铁路工务部门非常重要的检测任务之一。基于结构光的测量技术是如今视觉测量领域的研究重点和热点,已经广泛地应用于工业测量的各个领域,因此基于结构光的钢轨磨耗测量方法已经成为铁路基础设施安全检测中的热点课题之一。本文着眼于如何在动态
文本情感分析是自然语言处理领域的一个重要任务,它是一种以提炼文本情感内容为目的的文本分类。根据分析粒度的不同,文本情感分析可以分为对整篇文章的情感分析、对某段话的情感分析和对某段话中各个方面的情感分析,其中,对某段话中各个方面进行情感分析是一种细粒度的情感分析。目前,针对整篇文章或整个句子进行情感分析的研究技术已经比较成熟,并取得了较好的效果。但是,对文本进行整体情感分析会掩盖文本中不同方面的不同
随着互联网的普及和移动应用的快速发展,人们越来越习惯于在网络上获取信息。传统的医疗问诊需要人们去医院挂号进行诊断,随着网络技术的发展,越来越多的医院推出了在线问诊功能。人们渐渐习惯于去搜索引擎或者专门的问答网站,去搜索或提问相关症状,并从专业医生的回答中获得参考。但是专业医生资源有限,而绝大多数医疗问题集中在类如感冒发烧等常见疾病上,这些常见医疗问题已有的回答非常具有参考意义。如何通过分析已有的医