基于模型迁移的中文分词领域适应性研究

来源 :北京交通大学 | 被引量 : 3次 | 上传用户:sentown
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理(Natural Language Processing,NLP)是人工智能领域的一个重点研究方向,是让机器能够理解人类语言的一种技术手段。而中文分词任务是中文自然语言处理任务的一项基础且重要的工作,它的分词效果将对NLP领域的下游任务譬如情感分析、机器翻译、信息抽取、知识图谱等起着举足轻重的作用。近年来,随着深度学习在各个领域的盛行,神经网络模型华丽登场,受到了广泛的青睐,NLP领域也在其中。基于神经网络的方法已成为当今的一种主流的分词方法,该方法一经提出,中分分词的性能便得到了质的飞跃,效果明显优于传统的分词方法。但此方法需要大规模的标注语料,而标注语料的获得需要人工进行标注,需要消耗大量的人力资源,为每个研究领域做一个标注语料库显然并不现实。现今可获得的标注语料大都属于新闻领域,用新闻领域数据训练得到的分词系统直接用于别的领域中,性能会明显下降,这就是分词的领域适应性问题。该问题是分词领域一个亟待解决的问题,因此,中文分词领域适应性研究有着十分重要的理论与现实意义。在此背景下,本文提出了一种基于模型迁移的中文分词领域适应性方法,通过共享模型参数的方法来提高分词模型的领域适应性能力。本文的主要工作有以下几个方面:(1)通过对Bi GRU-CRF神经网络模型的分析,提出融入Bert预训练语言模型来获得更加丰富的语义信息,即Bert-Bi GRU-CRF神经网络分词方法;实验验证了该方法的分词效果要优于Bi GRU-CRF分词方法;(2)为了解决中文分词的领域适应性问题,本文提出了一种基于模型迁移的中文分词领域适应性方法,该方法通过共享Bi GRU层的网络参数以及特征来实现模型迁移的效果;(3)在模型迁移方法的基础上加入了对抗学习的鉴别器,鉴别器可以生成一个loss,并返回到Bi GRU层,用于Bi GRU层网络参数的更新,进一步增强了模型的领域适应性。本文通过四组实验有力地验证了本文所提出的基于模型迁移的中文分词领域适应性方法的有效性。并且目标领域未标注语料规模越大,分词效果越好。将本文方法与已有的其他领域适应性分词方法进行比较,进一步证明了本文所提出的方法的可行性和有效性。
其他文献
羊毛是皮肤的衍生物,承担着各种各样的生理功能,如保护、隔热和伪装等。羊毛是由真皮层毛囊发育而形成的,毛囊的周期性变化会直接影响羊毛的生长和脱落。有研究表明,FoxN1(Fo
心血管疾病是当今威胁人类身体健康的重要疾病之一。表现为心脏表面跨膜电位变化的心脏电活动是心血管疾病的重要表征,其特定信号和异常活动的发现和定位对心脏疾病的发现及治疗有着重要的作用。然而,由于现有的心脏表面电位检测手段或者基于临床经验,或者需要对病人的身体造成创伤,因此可以无创和定量地重建心脏表面电活动的心电逆问题的研究具有广泛且重要的意义。心电逆问题的研究目标在于根据人体表面检测到的电位信息,通过
零件检测是数控加工中心控制产品加工质量的重要组成环节,检测技术发展水平的高低对制造业生产效率的高低具有很大的影响。随着21世纪数控技术和计算机控制技术的飞速发展,利
随着能源需求和价格的增长,对化工领域节能方法进行研究势在必行。通过合理设计换热器网络回收利用系统内能量,是实现过程工业节能减排的重要途径和手段。同时,作为重要的供
目的:探讨应用剪切波弹性成像及彩色多普勒超声对新生兔不同程度缺血性脑病模型中丘脑的杨氏模量值、血流动力学改变及病理变化间的关系。方法:1.建立新西兰兔宫内缺血缺氧的
Al2O3-ZrO2复合陶瓷材料结合了Al2O3陶瓷高强度和ZrO2陶瓷良好韧性的特点,具有十分优异的综合力学性能。作为新一代备选高温结构材料,Al2O3-ZrO2复合陶瓷在高性能航空发动机
生化介质信息的检测大部分通过生物或化学方法进行,存在检测时间长、费用高等问题。为解决该问题,本文从纳米梁非线性振动的角度提出一种可用于生化介质信息检测的物理检测方
目的探讨膳食脂肪酸及生活方式与口腔颌面部良性肿瘤的关联,并分析脂肪酸代谢相关酶基因多态性与口腔颌面部良性肿瘤易感性的关系。方法1.收集2010年9月至2018年12月期间符合
沈宗瀚(1895-1980),是中国近现代历史上著名的农学家、作物遗传育种学家、农业行政管理专家,也是中国近代农业科学事业的先驱者。自1927年美国康奈尔大学博士毕业归国后,他便投入到中国农业的改良与研究中,将西方农业科学与中国农业实际相结合,探索中国农业现代化的发展道路,将毕生奉献给中国农业建设事业。沈氏在中国现代农业发展史和西方农业思想引介和传播史上占据重要地位。沈宗瀚历经不同历史时期,其农业
注意是习得发生必不可少的条件。因此,在外语教学研究中,如何吸引学习者对目标形式的注意成为了一个广泛的研究课题。本研究探讨了内、外两种吸引注意的方式(输出和语篇突显)对英语初学者在注意和习得英语过去式的-ed形式时的潜在促进作用。本研究详细阐述了两点:一是输出任务是否促进了目的语(TL)输入中学习者对目标形式的注意,并影响到目标形式的后续习得;二是由输出(如果有的话)引起的注意和习得是否与输入中语篇