论文部分内容阅读
中文分词技术主要包含以下三个研究方向:理解分词,机械分词以及统计分词。基于理解的分词方法研究尚未成熟,所以,绝大部分中文分词系统是应用机械统计相结合的方法。在目前主流的词典和统计相结合的分词系统中,统计策略和词典设计的关系往往是相互独立的,词典主要是作为机械分词的标准,而基于统计的方法主要是为了解决歧义问题以及未登录词的识别问题。本文所阐述的中文分词系统,将基于分词核心词典的机械分词和基于统计的方法组成了一个有机的整体。系统将统计得出的结果作为分词核心词典的输入,对于待切分文本来说,对于未登录词和词典词条,本文算法的本质均是先基于统计的方法扩充核心词典,然后采用基于字符串匹配的分词方法切词。总体上讲,本系统具有以下三方面的特点。专用性:适合计算机学科专业领域的分词,这主要取决于训练文本的选择;分词效率高:算法核心是基于字符串匹配的方法;分词精度较好:利用简单统计量模型与机械分词的有机结合解决了部分歧义词和未登录词问题。解决方案中涉及到的关键技术主要包括以下三个部分:第一、分词词典的设计。在整体结构上,词典分成两级结构,临时词典和核心词典。临时词典是通过统计方法将新词条向分词核心词典中输送的中间容器。核心词典是分词系统中切分的唯一依据,为了提高查询速度,结合中文二字词比例较大的特点,核心词典采用双层哈希结构。第二、统计策略的制定。歧义词和新词的识别主要依靠基于统计的方法,本文选择了基于互信息原理的方法进行词频统计。该统计模型,原理简单,实现方便,有较强的实用价值。第三、机械分词方法的应用。为了简化系统结构,提高算法效率,核心分词模块中,根据汉语的后重心特点以及“长词优先”准侧,我们选择逆向最大匹配算法。总体上讲,系统在初始化后即能够满足一定程度的应用,准确率等分词精度指标保持在97%以上;选择合适的训练语料,经过一定强度的统计学习后,分词精度参数可以提高将近一个百分点左右;分词效率指标不会发生明显变化。