论文部分内容阅读
计算机科技迅速发展、不同层次的应用需求的涌现,导致了当今网络数据的急剧增加,汉语有着庞大的用户群体,如何在海量的中文信息中提取出我们想要的,有用的信息呢?第一步当然是让计算机能够“懂得”我们人类的语言。汉语中词是拥有独立意义的最小语言单元。确切的进行词语切分是处理汉语这门自然语言的第一步,也是至关重要的一步,只有跨过这个难关,才谈得上更深层次的中文信息处理。纵观当前的分词方法,大致可分为基于规则的分词、基于统计的分词以及基于理解的分词三种。方法不同,各有其优缺点。本文分析已有分词方法的优劣,并采用基于统计与基于规则相结合的分词方法进行分词,取各方法之精髓,弥补各分词方法力所不及之处。在发挥隐马尔科夫模型优势的同时,辅以有规则的词典,提高分词的效率与准确率。接下来的重点与难点有二:其一为歧义消除;其二为对未登录词的识别。在初步切分处理过程中,本文采用最短路径的改进算法,本着“知之为知之,不知为不知”的原则,确定或十分有把握的才划分出来,成为一个词语,不能确定的则不作处理。这一步可以保留较大的可能性,交给后续步骤来处理,分层次来逐步解决问题,尽量使最终分词结果达到最优。此处也有最大熵思想的体现。未登录词识别主要指人名、地名以及外国人名的中文译名的识别,汉语博大精深,各种名字更是五花八门,人名由姓氏和名字组成,虽有规律可循,但随意性很大,难以通过传统的规则方法识别出所有的人名,地名却相对固定,外国译名也可以通过调查得到最常用的译名,从而事先将其加入词典,便可以很好的完成对二者的识别工作,本文主要针对人名这个识别难点,提出了基于上下文环境的统计模型,这也源于中文姓名出现的时候往往都在句中扮演着某种角色,所以加入这种信息,根据其与前后缀的粘合度来进一步判定是否应该被识别为人名。在歧义消除方面,歧义分为语义上的和解释上的两种,而交叉型歧义和组合型歧义是歧义消除主要解决的两个问题。交叉型歧义一般根据歧义字段本身就能得到很好的切分结果。组合型歧义相对交叉型歧义来说,需要更多的上下文信息,有时必须根据整个句子来判断。最大熵模型是一种将上下文信息组合在一起的概率模型,而组合型歧义的消除需要借助上下文信息来判断,因此最大熵模型适合用于解决组合型歧义的消除。论文介绍了系统的总体架构,以及各部分的功能及实现。实验结果表明,初切分阶段的算法可以收到较好的效果,而未登录词阶段的识别由于未能获得标记好的未登录词词典,所以仍需进一步的实验。总体上系统可以完成正常的切分工作,达到了预期效果。