中文分词系统的设计与实现

来源 :电子科技大学 | 被引量 : 13次 | 上传用户:hnmaac
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机科技迅速发展、不同层次的应用需求的涌现,导致了当今网络数据的急剧增加,汉语有着庞大的用户群体,如何在海量的中文信息中提取出我们想要的,有用的信息呢?第一步当然是让计算机能够“懂得”我们人类的语言。汉语中词是拥有独立意义的最小语言单元。确切的进行词语切分是处理汉语这门自然语言的第一步,也是至关重要的一步,只有跨过这个难关,才谈得上更深层次的中文信息处理。纵观当前的分词方法,大致可分为基于规则的分词、基于统计的分词以及基于理解的分词三种。方法不同,各有其优缺点。本文分析已有分词方法的优劣,并采用基于统计与基于规则相结合的分词方法进行分词,取各方法之精髓,弥补各分词方法力所不及之处。在发挥隐马尔科夫模型优势的同时,辅以有规则的词典,提高分词的效率与准确率。接下来的重点与难点有二:其一为歧义消除;其二为对未登录词的识别。在初步切分处理过程中,本文采用最短路径的改进算法,本着“知之为知之,不知为不知”的原则,确定或十分有把握的才划分出来,成为一个词语,不能确定的则不作处理。这一步可以保留较大的可能性,交给后续步骤来处理,分层次来逐步解决问题,尽量使最终分词结果达到最优。此处也有最大熵思想的体现。未登录词识别主要指人名、地名以及外国人名的中文译名的识别,汉语博大精深,各种名字更是五花八门,人名由姓氏和名字组成,虽有规律可循,但随意性很大,难以通过传统的规则方法识别出所有的人名,地名却相对固定,外国译名也可以通过调查得到最常用的译名,从而事先将其加入词典,便可以很好的完成对二者的识别工作,本文主要针对人名这个识别难点,提出了基于上下文环境的统计模型,这也源于中文姓名出现的时候往往都在句中扮演着某种角色,所以加入这种信息,根据其与前后缀的粘合度来进一步判定是否应该被识别为人名。在歧义消除方面,歧义分为语义上的和解释上的两种,而交叉型歧义和组合型歧义是歧义消除主要解决的两个问题。交叉型歧义一般根据歧义字段本身就能得到很好的切分结果。组合型歧义相对交叉型歧义来说,需要更多的上下文信息,有时必须根据整个句子来判断。最大熵模型是一种将上下文信息组合在一起的概率模型,而组合型歧义的消除需要借助上下文信息来判断,因此最大熵模型适合用于解决组合型歧义的消除。论文介绍了系统的总体架构,以及各部分的功能及实现。实验结果表明,初切分阶段的算法可以收到较好的效果,而未登录词阶段的识别由于未能获得标记好的未登录词词典,所以仍需进一步的实验。总体上系统可以完成正常的切分工作,达到了预期效果。
其他文献
随着电子网络媒体的广泛使用,教学用的知识和学习材料将可以进行不同的组合,以更多交流和通信的方式呈现给学生,以适应学习者不同的知识背景和需求。因此,网络上的教学过程可
目前,计算机系统的建设已从硬件和软件环境为中心转变为以应用和数据为中心,而企业对数据存储技术的需求也在不断攀升,SAN正是为了满足企业这种高涨的存储技术的要求而产生的
电力系统图形编辑器作为一个重要组成部分镶嵌在其它电力系统应用程序中,这就要求它能够方便地绘制和表达各类电力系统设备元件,提供各种分析功能接口,提供统一的图形用户界
随着电子商务的应用逐步深入,互联网的服务模式逐步向电子网上交易转变,这一变化必然导致用户访问量的激增且服务请求多样。如何实现对请求的快速响应是当前解决的问题。而以往
数字信号处理(DSP)技术已成为人们日益关注并得到迅速发展的前沿技术。然而,DSP技术实现主要载体之一的DSP处理器的性能从体系结构到指令系统等诸方面虽具有灵活的可编程性,
主动数据库系统是将主动性功能以一种统一的方法与原有的数据库功能相结合,能够提供主动服务功能的数据库系统。主动数据库由主动规则机制来实现其主动性,本文采用的ECA规则主
进入九十年代以来,随着网络技术的发展以及各种各样的Internet应用的出现,全球Internet业务呈现一种爆炸式增长的趋势,使得人类积累的数据量正在以指数速度迅速增长。因此,迫
21世纪是一个以网络为核心的信息时代。随着网络技术的快速发展,消费电子产品逐渐与计算机、通信技术紧密结合在一起,从而使家电上网、构建智能家居网络成为可能。Echelon公
移动自组网中的节点采用电池一类的可耗尽能源来提供电源,而且每个节点既是计算机又是路由器,很容易因某个节点能量耗完而导致网络分裂。本文主要是从能量入手,通过对网络中
随着Agent技术的不断成熟,基于Agent的应用,特别是在Internet上的应用将会越来越多。在Internet上基于Agent的系统开发就必然要面临Agent通信的两个问题:Agent间知识级的通信问