基于深度学习的中文分词方法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:BBP
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词是中文自然语言处理中的一项关键技术,其结果性能的好坏将直接影响到后续机器翻译、信息检索等语用任务的最终性能。随着深度学习在自然语言处理领域的广泛应用,神经网络模型在分词中也表现出了极佳的应用效果,但仍存在可以改进的研究点。本文在分析CNN、RNN、LSTM的基础上,提出了两种分词方法,从不同的角度对模型架构进行改进。本文提出的第一种分词方法把分词当做序列标注问题,使用Bi-LSTM-CRF模型架构对文本进行词位标注,并引入注意力机制思想对传统LSTM模型进行改进。通过一种门限组合神经网络对目标字窗口内的环境块向量进行有效融合,并辅助于一个命名实体发现词典,融合逐点互信息思想显式地加强实体影响,以此计算注意力权重强化LSTM模型对近距离上下文信息的处理,以期能够提升模型对字与字之间特征关系的抽取。本文提出的第二种分词方法,针对序列标注模型的局限性,打破序列标注时窗口的桎梏,引入集束搜索算法利用完整的分割历史进行动态分词,并借助深度学习模型强大的建模能力,对字符序列成词的可能性以及词序列连接的合理性进行评分。相比于传统的词位标注分词方法,该方法能够学习到字、词、句三个层次的丰富特征,并且利用完整的分割历史进行建模,具有序列级别的分词能力,能够获得更好的分词性能。最后本文通过实验探究提出的改进方法对分词性能的影响,验证出这两种深度学习架构对提高分词性能都有一定程度上的积极作用。本文所述的方法与主流深度学习方法有许多共性,因此同样能够应用在语音识别的后期处理中,并且可以广泛的扩展应用在其他NLP序列标注任务中。
其他文献
目的采用左侧高频和右侧低频重复经颅磁刺激(rTMS)治疗抑郁症患者,通过比较这两种治疗方法对患者产生的临床效果,探讨不同频率的重复经颅磁刺激对抑郁症患者认知功能的影响,为rTMS在抑郁症患者中的临床应用进一步提供可靠的数据参考。方法在河北省第六人民医院进行本项研究,选择2018年1月2018年12月住院的抑郁症患者72例,随机分为两组,即“高频组”和“低频组”,每组36例。高频组的刺激频率为10H
本文通过溶液自由基聚合合成了聚丙烯酸十八酯降凝剂(POA),并与改性蒙脱土(OMMT)熔融共混制备了纳米复合降凝剂(POA/OMMT),用于改善合蜡原油的低温流变性.使用XRD、TEM、FT-I
论述了研究可供数控机床选型配套的智能型高性能换刀系统产品化的意义。同时阐述了该产品的模式应为 :采用弹簧夹头夹持刀具 ,使用外驱动机械手完成刀具的夹紧放松 ,从根本上
随着新改革进程的不断推进,人们越来越重视初中学生的综合素质培养。初中生正处于青春期这一心理与身体发育的重要阶段,必须在对其心理素质进行培养的同时,保证其身体强健,这
蛇形传送带车的主要功能是,可以从客机货舱内,在操作人员可控制的情况下,用安全、有效以及便捷的方式装卸乘客行李。21世纪以来,随着经济水平不断提高,民航客机承载量的加大,
氮化钒(VN)作为目前国内第一大钒合金添加剂,在高强度低合金钢的冶炼中得到了广泛的应用。碳热还原法是制备VN的唯一实现产业化生产的方法,钒源为V2O5、V2O3等钒产品,但反应温
微积分课程不仅仅要传授学生微积分的内容,也要在学习的过程中培养学生各种思维能力和解决问题的能力。概念图和思维导图在知识网络的构建和理清思维脉络中各自发挥着重要的
将每本图书都加上RFID(射频标识器),这些图书便会将自身的信息,以无线方式提供到接收端,这样一来,图书的借还过程,就会自动通过接收端传输到图书管理系统中,这便是物联网在图书管理中
从第一代磁场驱动型的磁随机存储器(MRAM),到第二代基于自旋转移力矩(STT)效应的磁随机存储器,再到第三代基于自旋轨道力矩(SOT)效应的磁随机存储器,驱动磁性隧道结自由层磁矩翻转
新能源汽车作为传统燃油汽车的替代品,在减少废气排放、保护环境、节约资源等方面具有巨大的优势,促进新能源汽车行业发展,就等于保护我们的“绿水青山”。当前我国新能源汽