论文部分内容阅读
随着信息时代的到来,人类将面对着浩瀚的信息海洋。已知在由计算机进行存储的信息中有80%是由文字为载体进行传输的。面对这样庞大的文字信息数量,如何利用计算机更有效的处理这些信息就成为计算机技术的一个新的研究领域。这样的背景下对中文信息处理技术的研究就应运而生,而作为中文处理技术的最基本环节的中文分词技术也就自然而然的成为研究的热点。中文分词技术就是利用计算机技术把没有分割标志的汉字串转换为符合现实语言应用的汉语语言词串的过程,即在书面汉语中利用计算机技术建立词的边界的过程。中文分词在现实中有着很广泛的应用,它隶属自然语言处理领域,是句法分析和语义理解过程等深层中文信息处理的基础,是中文信息处理的最初环节。现有的中文分词算法总体来说可以分为基于词典的中文分词算法、基于统计的中文分词算法和基于理解的中文分词算法三类。前两类算法是现今对中文分词技术研究的主流,而基于理解的中文分词算法是中文分词技术未来的研究趋势。当前在对中文分词技术进行研究时主要是从中文分词的算法、歧义处理技术、未登录词的识别等几个方面开始着手。本文主要把分词算法的设计和歧义处理两个方面作为切入点展开研究与实践:(1)将本体引入到中文分词领域,尝试用语义本体代替传统的机械词典来进行分词,并结合正向与逆向最大匹配法,设计了一种基于本体的双向最大匹配分词算法。通过实验测试证明该算法在分词准确率与召回率方面与传统的基于词典的中文分词算法相比有了显著的提高。(2)对于分词过程中产生的歧义,本文结合领域本体的特性,通过对语义关联强度计算来进行歧义字段的消歧工作。这种歧义处理方法充分的体现了利用语义本体进行分词相对于利用传统的分词词典进行分词的优势所在。(3)对基于本体的中文分词系统的框架进行了设计,在分词之前利用事先建立的规则库对待切分材料进行预处理。先将材料中的命名实体进行简单识别,以此对待切分材料进行初次分词,大大减小了分词的复杂度和节省了分词的时间。并对对分词系统的分词模块、歧义处理模块等进行了具体设计。本文提出了一种新的基于本体的中文分词算法,并借助本体的优势,对分词过程中产生的歧义进行处理。通过实验测试,证明这种算法是有效的。