基于深度学习的中文分词算法研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:kms2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词(Chinese Word Segmentation,CWS)作为自然语言处理领域的基础任务和重点研究课题,受到越来越多的关注,其分词效果的好坏直接影响着词性标注、命名体识别和语义分析等任务的进行。因此,中文分词技术的研究具有重要的理论和现实意义。目前有很多关于中文分词技术的算法,最为常见的就是使用序列标注方法进行中文分词,但是这种方法受窗口大小的影响很大。本文采用基于门控组合神经网络(Gated Combination Neural Network,GCNN)和门控循环单元(Gated Recurrent Unit,GRU)神经网络进行中文分词算法的研究。主要研究内容有:1.总结中文分词技术的发展现状,介绍了基于长短时记忆(Long Short-Term Memory,LSTM)神经网络和基于门控循环神经网络(Gated Recursive Neural Network,GRNN)的中文分词方法。这两种方法都是基于序列标注的中文分词方法,把中文分词过程转换为学习词位信息的过程。2.分析LSTM和GRNN网络的不足,提出改进的GCNN-GRU神经网络的中文分词方法。该方法无需再对单个字进行标注,而是直接评估不同切分句子的相对可能性,然后搜索最高得分的分词结果。首先,通过GCNN网络从字嵌入中获得词向量,避免忽略不常见词和未登录词,同时计算出词得分;然后,把词向量输入到GRU神经网络中获得上下文信息,其分词结果的得分就是词得分和句子得分之和;最后,通过beam search算法进行解码,获得最高得分的句子。3.在相同实验环境下,本文分别对GCNN-GRU、LSTM和GRNN网络分词算法进行实验验证。实验结果表明,在数据集PKU上,本文改进的中文分词算法的分词精度(F值)分别比LSTM、GRNN分别提高了0.7%和0.8%;在数据集MSR上,分别提高了 1.1%和1.2%。4.本文使用了Dropout方法避免神经网络过拟合以及使用word2vec对字嵌入进行预训练,获得了更好的分词效果。经过预训练和Dropout方法处理的GCNN-GRU网络比没有经过处理的GCNN-GRU获得的分词精度分别提高了 0.4%和 0.1%。
其他文献
本文针对新课改背景下的学生自主探究能力培养.阐述了如何在物理课堂教学中提高学生的自主探究能力.并主要针对笔者所在学校的生源特点进行讨论.提出了三种课堂教学模式。
对丙酸及丙酸乙酯的用途及生产路线,以及丙酸与丙酸乙酯的各种生产方法的工艺路线和使用的催化剂作了介绍,对研究在双金属负载型催化剂,在常压条件下,气-固相乙醇羰化生产丙酸及丙
纤维素酶是一种极其重要的工业酶,绿色木霉是分泌纤维素酶的高产菌种,绿色木霉分泌的纤维素酶对纤维素类物质有很强的降解作用,所以对绿色木霉进行固定化有助于工业化生产纤
化学计量学解决了传统化学量测方法难以解决而又贯穿于现代分析化学的复杂数据处理、信息提取、实验设计等问题,有效地提高了分析方法的灵敏度、选择性和准确度,促进了分析仪
目的:通过建立AOM/DSS炎症性结直肠肿瘤模型,观察纤维素对C57BL/6小鼠肠道菌群构成、肠道屏障功能、炎症及相关指标的影响,研究纤维素对小鼠结直肠癌发生发展的抑制作用和机
用免疫电泳的方法测定10例肾综合征患儿尿THP排泄量,为(29.975±11.108mg/24h,同时测定了10例正常儿童尿THP,为(37.49±20.62)mg/24h,经t检验分析,两组间有显著差异,结果提示尿THP排泄量可能能反映亚小管或间质损害。
本文主要针对304奥氏体不锈钢低温离子渗氮的组织与性能展开了研究,通过结合具体的试验实例,详细阐述了试验的方法及材料,对试验的结果作了系统的讨论和分析,以期能为有关方面的
物理是一门以实验为基础的学科.是自然科学的基础。学好物理对于提高学生文化素养和进一步的学习具有重要意义。对于刚升人中学的学生来讲.是否有浓厚的学习兴趣是学好物理的第
在高校学风建设中,辅导员起着至关重要的作用。本文针对大学生存在的学风问题,就辅导员在学风建设中的作用进行探讨,试图为高校学风建设提供建议。