中文自动分词算法的研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:XTOGM
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着国民经济信息化的不断发展以及Internet的普及,中文信息处理技术的应用日益广泛,如搜索引擎、自动翻译、语音识别、信息检索、自动分类、自动文摘、文本的自动校对以及数据挖掘等方面。在中文中,词是最小的语言单位。由于汉语的书写习惯,中文语句中词与词之间的标志是隐含的,因此将词确定下来是中文信息处理的第一步。中文分词,是指把一个汉字序列切分成一个词序列的过程。   从20世纪80年代开始至今,经过几十年的研究,中文分词的研究已经取得了长足的进展并出现了众多的算法。根据其特点,可以将现有的中文分词算法分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。一般来说,只使用一种分词方法很难达到让人满意的效果,将多种不同的方法结合起来,优势互补,相对来讲会得到更好的分词结果。   本文主要对几种常见的分词方法进行了研究,包括正向最大匹配算法、逆向最大匹配算法、最短路径算法和N-最短路径算法。通过对这几种中文分词算法的研究和分析,提出了一种改进的最短路径算法——无需词图的最短路径算法。并在非统计模型的基础上引入了词频信息,建立了更实用的统计模型。针对来自SIGHAN主办的第二届国际中文语言处理竞赛中北京大学语料库(共计19056个句子)和微软亚洲研究院语料库(共计86924个句子),进行了实验。在非统计模型中,无需词图的最短路径算法在北京大学语料库和微软亚洲研究院语料库上的正确率分别为81.20%和76.86%;在统计模型中,无需词图的最短路径算法在北京大学语料库和微软亚洲研究院语料库上的正确率分别为86.90%和86.13%。对比实验表明,无需词图的最短路径算法能够达到基于词图的最短路径算法的分词正确率,且运行速度更快。另外,本文还将无需词图的思想应用到N-最短路径算法中。   除此之外,设计与实现了一个集成多个中文自动分词算法的中文自动分词系统,包括正向最大匹配算法、逆向最大匹配算法、最短路径算法和N-最短路径算法,另外还包括本文改进的最短路径算法——无需词图的最短路径算法。  
其他文献
近年来,我国正处于突发公共事件高发时期,如自然灾害、事故灾难、社会安全、公共卫生等。为了积极应对突发公共事件,国务院常务会议于2005年1月26日通过了《国家突发公共事件
以多媒体、网络技术为代表的现代信息技术促进了教学的快速发展,使教学环境、学习方式发生了巨大变化。与此同时,人们对于支撑网络教学的应用程序的需求持续增长,要求也越来越高
伴随着教育信息化的发展,Web技术与e-Learning使人类学习环境发生了根本性的变革。为构建跨组织、跨系统平台的海量知识融聚共享环境,人们提出了学习对象(LearningObject)的
随着博客影响力的不断增加,博客被更多领域的人作为交互和表达思想的工具,并以站点的形式在万维网上形成了博客空间。面对博客空间的急剧膨胀,博客搜索也变得必要迫切。尽管
数据仓库是数据存储和数据管理技术,是实现基于特定分析主题的数据存储、数据汇总、数据分析和应用的复杂系统。数据仓库中存储了海量的数据,如果这些数据遭到非法访问或破坏
随着软件产业的发展,越来越多的行业领域需要专业软件的支持,软件需求也越来越领域化、专业化,随之而来的是客户需求的快速变化和软件复杂度日渐增高。然而传统的软件开发方
作为电子商务的重要组成部分,基于Internet的电子交易受到了广泛的关注。SET交易过程十分复杂,在完成一次SET协议交易过程中,需验证电子证书9次,验证数字签名6次,传递证书7次
在储存海量数据的数据仓库中,由于其潜在的数据价值随着数据挖掘技术的发展与应用而被各研究领域所关注,包括商业、军事及科研等,涉及范围广泛,随着数据仓库安全性问题也得到
面向特定主题的信息采集是垂直搜索引擎的关键技术之一,直接影响到搜索结果的速度和相关性。研究面向特定主题的信息采集,应用分步骤判断方法计算页面相似度,改进PageRank链
随着移动通讯技术的迅速发展,移动电话等便携设备成了语音识别的重要应用领域。对于便携设备来说,运算量和网络带宽始终是制约语音识别应用的瓶颈。分布式语音识别的特点是: