论文部分内容阅读
自然语言处理是人工智能的一个重要分支。汉语自动分词是中文自然语言处理的一项基础性工作,也是中文信息处理的一个重要问题。汉语自动分词系统是利用计算机对汉语文本进行词语自动识别的系统,对其研究已经取得了很多成果,但已有的系统还不能完全满足实际应用的需要,有待继续研究。本文主要目标是设计并实现一个汉语自动分词系统。在分析了自动分词面临的主要困难和难点的基础上,旨在降低分词难度和提高分词精度,设计并实现了一个基于多步处理策略的汉语自动分词系统。论文的主要工作如下: 论文首先介绍了汉语自动分词系统通常采用的语言模型和分词算法,提出了基于词性信息和规则相结合的时间语词消歧算法。时间语词包括时点语词和时段语词,特定类型时间语词在切分时存在是时点还是时段的问题。本文提出的算法开放测试正确率约为90%,表明了该算法的有效性。其次搜集、整理和建立了研究所用的自然语言资源。主要包括人工切分标注语料的搜集、加工和整理,生语料的搜集及加工,分词词典和为分词提供决策依据知识的分词知识库的建立。还对文本中的非汉字字符、汉字数字串归并进行了探索。论文的核心工作是设计并实现了一个基于多步处理策略的汉语自动分词系统。系统包括初切分,词性标注、歧义字段处理、模型平滑、未登录词识别等功能模块。初切分是找出待切分语句各种可能路径;歧义字段处理包含利用词的二元模型或分词词性标注一体化模型处理交集型歧义,利用支持向量机理论处理组合型歧义;未登录词识别已实现的功能是利用词性探测法识别中文姓名;模型平滑技术体现在词性标注和歧义字段处理过程中。最后通过实验验证了系统的性能。与人工分词结果相比,系统的分词正确率达到了96.94%,分词速度在1000~1400 个/秒之间,虽然没有达到目前所见效果最好的中科院汉语词法分析系统ICTCLAS 的精度和效率,但在实现过程中探索的一些新方法对以后的研究将会提供很多的帮助。同时对全文的工作进行了总结,提出进一步的研究工作。