基于样本迁移学习的中文分词领域自适应方法的研究

被引量 : 9次 | 上传用户:binbin151
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词是指把一句汉语按照一定规范切分为一个个单独的词,是中文自然语言处理(Natural Language Processing,NLP)的一个基础任务,也是信息检索、知识图谱以及机器翻译等其它NLP任务的关键底层任务。近年来,随着深度学习的发展,基于神经网络的分词方法在自然语言处理领域得到广泛应用。不同于传统的基于规则和统计的分词方法,神经网络方法利用大规模标注数据训练得到泛化能力强的模型。然而中文分词任务具有极强的领域适应性,通常在一个领域训练得到的分词模型应用于其它领域时性能会有所下降。而目前公开的中文分词数据集多为新闻领域,因此如何利用资源丰富的领域数据去提高资源匮乏领域的分词性能就变得尤为重要。本文主要研究中文分词的领域适应性问题,当前中文分词的领域自适应研究主要存在两方面挑战:一方面,相同的单词在不同领域内的上下文和含义都有可能不同,导致歧义切分问题;另一方面,不同领域所包含的领域内词汇不尽相同,导致无法有效识别未登录词。针对以上挑战,本文提出基于样本迁移学习的中文分词领域自适应方法。该方法的主要思想是通过分析源领域和目标领域数据的特点,选择小规模有价值的样本进行标注,然后利用标注后的样本来帮助训练分词模型,从而提高模型的领域自适应能力。本文的主要贡献如下:(1)针对当前主流的神经网络中文分词系统BiLSTM-CRF,提出了融合注意力机制和融合Bert语言模型两种改进方案,分别为Att-BiLSTM-CRF框架和Bert-BiLSTM-CRF框架。其中注意力机制增加了历史信息,Bert语言模型融入了更多的语义特征;(2)针对中文分词的领域适应性问题,通过分析源领域数据和目标领域数据的特点,提出了基于n元字向量的相似性计算方法,借助该方法可以选出与源领域结构相似且包含未登录词的目标领域样本;(3)针对中文分词的领域适应性问题,提出了基于样本迁移的中文分词领域自适应方法。在样本迁移过程时,本文提出基于相似性和不确定性的采样策略来选择样本,并对模型的标注结果进行修正,避免了负迁移现象。本文研究是利用样本迁移改善领域适应性问题的进一步尝试。实验结果表明,本文方法能够有效地增强模型的领域自适应能力,提高中文分词精度。
其他文献
由于受主客观因素的影响,独立学院思想政治理论课教学面临不少困境,如教学目标缺乏立体性、教学内容缺乏针对性、教学方法与手段缺乏创新性、考核评价缺乏科学性,制约了教学
“数学概念”是一种数学思维形式,它指人脑对客观事物的空间形式和数量关系特征的反映,是数学法则、定理等的构成基础,也是人类学习数学基础知识、发展数学思维和想象力的基
建立一个由制造商和销售商组成的二级供应链模型,在销售商向消费者销售制造商基础产品的同时提供可选附加品的供应链多产品定价背景下研究了制造商及销售商的定价策略。以消
基于“甘肃基础教育调查”两轮数据,对《中华人民共和国教师法》中关于该行业从业资格最低学历要求的规定对农村教师职初受教育水平的影响进行了评估。基于断点回归的研究结
目的探讨丙泊酚与七氟醚对老年胃癌手术患者的临床麻醉效果。方法选取我院进行手术的100例老年胃癌患者,随机分为丙泊酚组以及七氟醚组,各50例。丙泊酚组采取静脉泵注丙泊酚
综述外周多巴胺受体类型、分布及作用和作用机制。
宁波市供排水集团有限公司有一个书记宣讲团,2008年7月成立至今,已持续给党员职工上了10年党课。从最初15名讲师,到吸纳了集团各级党组织书记、精英技术人才在内的70余位讲师
目的:了解生物制品及生化药品在重庆市医院的使用现状及变化趋势,为进一步促进该类药物的临床合理使用提供参考。方法:采用金额排序分析和用药频度(DDDs)分析等方法,收集重庆市34
五代十国时期,南唐政权偏安江南,国力暗弱,但却对文化艺术的发展给予高度的支持,造就了董源、周文矩、顾闳中、徐熙等一批绘画大家。其中,赵幹的《江行初雪图》就是南唐画院