论文部分内容阅读
中文分词是中文信息处理的基础,也是其一直存在的基本问题,有着极其广泛的实际应用。可以说,在各类中文信息处理软件(系统)中,中文分词是不可或缺的环节。自上个世纪末,由于互联网在中国的兴起,更对中文信息处理提出要求,即在语义层面上处理中文,这使得中文分词技术的研究显得更加困难,中文分词技术的发展显得更为重要。
本文调研了国内外中文分词的历史和现状,分析了目前中文分词存在的重点和难点,即新词识别和歧义处理,本文在领域范围内,在中文搜索引擎的大背景下展开研究工作。应用中文分词的相关知识,结合实际设计开发工作,完成本课题的相关任务。首先较为全面地分析了课题背景、中文分词相关知识、本文重点研究的CRF模型、新词识别过程及系统的实现和实验情况。
条件随机场模型是一种无向图模型,具有产生式模型和最大熵模型的优点,既可以利用任意上下文特征,并且对这些特征进行训练,又可以通过折衷不同位置的不同特征值获得全局最优的标记结果,但它本身也具有一定的缺陷,训练复杂,训练占用空间太大且对于长字词的识别能力不高。本文首先针对自己的分词系统对条件随机场模型进行了一定的优化处理,标记方法采用由字构词法,特征方面采用构词法与词性特征联合解码方式等多个方面进行了优化,然后提出了本文的新词识别的方法,采用CRF与PAT-Array相结合进行新词的检测,然后利用应用非常广泛的基于统计的kNN分类器进行分类,从而将新词识别出来。这种方法很好地解决了CRF模型对于长字词检测能力不高的缺陷,提高了整个系统对于新词的召回率,提高了分词系统的性能。