基于双向长短时记忆模型的中文领域分词方法研究

来源 :昆明理工大学 | 被引量 : 2次 | 上传用户:the1295
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词是语义理解的关键环节,也是中文信息处理的瓶颈问题。由于中文具有特有的书写方式和其自身的复杂性,中文分词也是分词技术中的研究难点。目前,中文分词主要采用四种方法,包括字符匹配方法、基于统计的方法、基于理解的方法和深度学习方法。深度学习可以通过优化最终目标,有效的学习原子特征和上下文的表示,同时避免了繁琐的特征工程,能够更加有效的刻画长距离句子信息。目前,通用的分词工具在领域内的效果并不好,例如冶金领域,特定领域的分词很少有研究。由于特定领域具有其特殊性,领域概念、领域知识和领域术语都包含在特定领域中,所以现有的分词工具并不能达到很好的分词效果。近年来,神经网络在中文分词中的有效性已经被证实。然而,这种有希望的表现依赖于大规模的训练数据。由于缺乏标记的训练数据,具有传统架构的神经网络无法在低资源数据集中实现期望的结果。对于小规模的特定领域的语料,本文以冶金领域为例提出了一种基于双向长短时记忆模型的特定领域的中文分词方法。结合双向循环神经网络模型和长短时记忆神经网络模型的优点形成了双向长短时记忆神经网络模型,所以双向长短时记忆神经网络模型具有可以捕捉长距离信息的优点。本文先是用基于双向长短时记忆模型的中文分词方法对公共数据集进行分词,并且与前人工作进行了对比,验证了双向长短时记忆模型在分词上的有效性。之后把双向长短时记忆模型应用到冶金领域,提出了基于双向长短时记忆模型的中文领域分词方法。该方法使用集成学习的思想,通过对字的标签概率进行权重结合,并利用最优转移概率求解分词结果。实验结果表明,本文提出的特定领域的中文分词方法可以实现更好的分词效果。最后,设计相应的分词系统,通过选择具体领域,特定领域的中文分词方法可以应用于相应领域的分词任务,具有一定的领域适用性。
其他文献
目标跟踪作为计算机视觉领域的一个基础问题在近十年来已经取得了广泛关注,目前在视频监控、人机交互等许多领域都有着大量应用。它的核心问题就是在给定第一帧目标对象的边
随着教育信息化时代的到来,与其同步跟进的教育技术装备事业得到空前的发展。教育技术装备作为教育改革和发展的物质基础,为教育现代化提供了重要的物质和技术保障。进一步加
会议
药物的耳毒性虽然早已引起广泛的关注,但是目前我国每年新增的3~4万聋儿中,仍大约有 50%左右是药物引起的。大多数耳毒性药物已被临床医师和药理学家所认识,但丙戊酸钠对听力影
会议
L波段(1-2GHz)电磁波对天气和地形不敏感,广泛用于军用、民用领域。现阶段,L波段高功率微波源普遍面临结构不够紧凑、束波转换效率较低等问题。基于超材料的慢波结构可以在相同
随着工业4.0的发展,越来越多的人关注智能制造,智能制造应该快速、灵活地响应订单、设备和原材料的变化。然而订单大多数是小数量和多批次定制,这就要求运输系统能够智能高效
与传统的机械硬盘相比,固态硬盘(Solid State drive,SSD)具有功耗低,读写快,防震,无噪音,轻便等优良特性,这使得它开始在多个领域取代传统机械硬盘。然而,由于闪存介质固有的
目前工业生产流程正变得越来越复杂,独立工作的机器人的相关性能特点已逐渐不能满足实际生产的要求,因此对多机器人技术的研究日益重要,符合当前社会发展的需求。多机器人技
合成孔径雷达(Synthesis Aperture Radar,SAR)是一种高分辨雷达,可以实现全天时、全天候连续的对地观测。引入极化信息,不仅能够提供雷达多通道的数据支撑,还有利于获取雷达
符号网络是指边具有正或负符号属性的网络,其中正负边分别代表积极和消极关系。消极关系普遍存在于信息、生物和社会领域,为人们研究态度预测、用户特征分析以及聚类等方向提
过渡金属配合物,由于其在有机发光二极管(OLEDs)、染料敏化太阳能电池(DSSC)、荧光探针等方面的应用而受到了广泛的关注。自从Wrighton探究了[fac-Re(CO)3LCl](L=1,10-邻二氮菲)的发