基于多模型的中文分词方法研究

来源 :沈阳航空航天大学 | 被引量 : 1次 | 上传用户:wly8213
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
字标注分词方法借助于优秀的学习算法成为当前中文分词领域中一种较为有效的分词方法。但由于汉字具有不同语言功能与含义这一特点,造成每个字的构词规律存在差异。因此,基于字进行多模型分词建模成为一种分词策略。然而,现有分词方法存在两点现象:(1)基于字进行分词建模,尽管可以学习出每个字特殊的构词规律,却忽略构词规律中的共性问题,造成模型冗余;(2)自神经网络的表示学习方法兴起,使得自动学习特征成为可能。利用神经网络进行自动表征学习成为分词领域中的自然选择。本文针对上述分词领域所存在的现象,提出相应的方法:针对现象一,本文提出了基于字簇的多模型中文分词方法。该方法借助聚类算法试图发掘构词规律分布结构,以此作为分词建模依据,重新进行特征抽取与模型训练。实验结果证明,本文所提出的方法在提高分词性能的同时,大幅度减少模型数量,避免模型冗余。针对现象二,本文提出了基于字的多Bi-LSTM模型的中文分词方法。该方法基于字进行分词建模,并借助Bi-LSTM神经网络特有的优势进行自动特征学习,避免特征工程对分词性能的影响。与此同时,为了避免模型冗余问题,引入聚类思想,提出了基于字簇的多Bi-LSTM模型的中文分词方法。实验结果表明,利用Bi-LSTM神经网络的分词方法可以大幅度提高分词性能。最后,设计并实现了基于多模型的中文分词系统。该分词系统可以对输入的句子或文本进行分词操作,并且支持分词细节展示等功能。
其他文献
近年来,以铟镓砷(InGaAs)、磷化铟(InP)等为代表的光电器件已在军事、通信、医学和外太空探索等领域发挥着举足轻重的作用。本文研究了 InGaAs基光电器件的性能及其可优化的
微波光子波形信号生成及光交换技术是多功能射频探测一体化中不可缺少的两项技术。近年来,传统电域由于其电磁干扰严重、传输损耗大、带宽受限、成本高、体积大等固有的劣势
毫米波技术和D2D通信都是未来5G通信系统的关键技术。这两项技术进行结合,可以满足用户对于高传输速率和优良用户体验的需求。然而,随着用户设备数量和设备种类的急剧增加,在有限范围内会存在大量设备,这将导致复杂的干扰状况。因此,如何科学有效地表征干扰状况,并高效合理地对通信链路进行管理,以最优化系统的传输速率,降低干扰,成为了这种通信方式能否广泛应用的关键问题之一。本文基于图论和最优化理论,结合毫米波
在传统的射频微波系统中,为实现滤波和功率分配功能,通常采用将滤波器和功分器独立设计后再进行级联的方案,这将导致整个电路系统的占用面积较大,插入损耗随之增加。将滤波器
相控阵雷达能同时完成搜索警戒、跟踪制导、目标识别、引导等多种功能,具有大目标容量、高数据率、较高的可靠性并且方便隐身等诸多优点,各个国家都在竞相发展相控阵雷达。而采用雷达仿真技术对于研制相控阵雷达来说具有降低成本、提高效率、缩短研制周期的优势。传统的基于中央处理器(CPU)平台的相控阵雷达仿真存在运行效率低,项目研制耗时久的问题,严重制约了相控阵雷达仿真的广泛应用,而图形处理器(GPU)拥有众多计
20世纪是一个充斥着文化危机与文化焦虑的年代,是一个围绕着现代性展开各种批判的年代,其中,对技术理性的批判成为了各种文化批判主题的核心。由于科学技术的高速发展,技术理
一国的国家形象是该国综合实力的重要组成部分。中国一直高度重视国家形象的对外传播工作,然而虽然投入不少却总是呈现“鸡同鸭讲”的状态,受众不愿听、听不进的问题突出。一些外国受众所持有的政治偏见也严重影响到了国家形象的传播效果。对于中国国家形象的对外传播效果究竟应当如何改善,学术界虽然数量上成果不少,但似乎始终没有给出有力的答复。“劝服”是关于态度改变的研究,长期以来被研究政治竞选、广告营销、心理实验等领域的学者广泛关注。将该研究领域的相关理论推广到国家形象传播活动上来可能会为
本文主要系统地研究了非晶铟镓锌氧化物(amorphous Indium-Gallium-Zinc-Oxide,a-IGZO)薄膜晶体管(Thin-Film Transistors,TFTs)在不同的栅压(VG)、温度(T)和光强(Ⅰ)的负栅
古希腊地区因特异气候类型的影响,夏季干燥漫长、阳光强烈。因此在这种自然环境下,建构起先进的水资源管理系统就成为必然之选择。水文化的元素从这里起锚,是缘于一种极具东
近年来,职业体育信息的保护问题逐渐成为关注重点,特别是大数据技术在职业体育领域的应用,数据挖掘与分析产生海量职业体育信息,类似于训练战术/技巧、球员信息/报告、比赛战