基于机器学习的中文分词的研究与实现

来源 :沈阳工业大学 | 被引量 : 0次 | 上传用户:jie_169
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词是最小的能独立运用的语言单位,然而汉语不同于西方语言的一个显著特点是文本中词与词之间没有显式的分隔标记。中文分词是是中文信息处理的基础,在搜索引擎、机器翻译、文本分类等中文信息处理的各项任务中首要做的工作都是中文分词。当今的中文分词方法主要可分为三类:机械分词法;语义分词法和人工智能分词方法。近些年来,中文分词研究取得了一定的进展,但是目前较为成熟的技术都是机械式的分词系统,也就是说都需要大量的人力建立一个人工词典,并随时进行词典的维护。这样浪费了大量的人力,并且难以很好的解决未登录词的识别问题。本文分析了现有分词解决方案的优势和不足,提出一种基于机器学习的中文分词方法,并实现了机器学习分词模型系统。系统采用机器学习方法为基本框架建自动分词模型,不借助人工词典,设计了机器学习分词系统的四个模块,为每一个模块选择合适的算法并对针对分词系统性能的需要对算法进行了优化。采用N-gram语言模型,运用EM算法迭代地训练模型,优化模型参数。为了进一步提高模型性能,防止EM固有的局部最优问题,本文研究并使用了基于互信息的算法进行词典修剪。考虑到互信息能更好地反映两个字之间的耦合性,对字符串进行划分时,用基于字符间的互信息的方法代替了最大似然估计方法,并且通过多次实验合理的设置了阈值,使得修剪率大大提高,从而使机器建立的词典具有高效性。切分过程系统利用改进正向最大匹配算法,提高了分词切分效率。本文研究并实现了基于机器学习的分词系统。实验结果表明,所提出的方法通过机器学模型成功的让计算机独立建立了一个分词词典,切分以后得到较高的准确性,准确率达到90.81%,分词速度平均达到了12000字/秒以上,即有较为满意的分词性能,并在解决歧义处理和未登录词识别问题中能够获得满意的结果。
其他文献
隐喻在词义的演变过程中起着重要的作用 ,它导致英语词汇的多义性 ,引起词性转换 ,并且是构成英语成语的重要支柱。隐喻不仅仅是语言修辞手段 ,还是一种思维方式。隐喻概念体
笔者采用文献资料和教学实验等方法,对当前普通高校开设体育选项课问题进行探讨。"选项"教学模式的教 学实验表明:选项课有利于学生身心的全面发展。学校场地、器材短缺,学生
支付体系是经济金融体系的重要组成部分,是一国经济金融运行的基础。支付体系的发展、支付效率的提高能够有效地促进经济金融和社会的发展。国际清算银行《关于重要支付系统
近几年来,柔性外骨骼人机智能系统已成为机器人技术、机电工程、自动控制、生物工程以及人工智能等学科领域中一个新的研究热点,并在科研、工业生产、太空或深海探索、娱乐、
本文首先对于旅客出行时间价值进行了深入的分析。以往一般是从宏观的角度来分析其对于建设项目的时间价值节省效益。而本文是从旅客出行运输方式选择的微观角度来分析旅客出
目的探讨手术室消毒隔离管理对手术感染的影响。方法选取2016年7月至2017年8月70例手术患者作为研究对象,随机分为对照组和试验组,各35例。对照组采用常规感染控制管理,试验
在高铁隧道建设施工中,相比于传统施工工艺,湿喷混凝土技术更具优势对高铁隧道从工艺效果上进行优化改善,提高了工程推进的效率,由于这种技术的使用成本较低,相比于传统施工
为了进一步做好末制导炮弹的保障和储存工作,在分析末制导炮弹储存特点的基础上,着重研究了环境条件对末制导炮弹储存的影响,分析了气候条件、辐射条件及生物条件等对末制导炮弹
目的:研究初治Ⅰ-Ⅲ期直肠癌根治术后复发转移模式及其相关的临床病理危险因素,为直肠癌术后随访监测、复发转移的预防和治疗提供依据。方法:回顾性分析单个医疗机构某段时间
目的分析并研究椎间植骨加压融合内固定治疗退变性腰椎滑脱症合并椎管狭窄患者的临床疗效。方法对2013年2月至2016年2月期间本院接收的退变性腰椎滑脱症合并椎管狭窄患者62例