论文部分内容阅读
中文自动分词是汉语自然语言处理领域一项重要的基础性研究工作,而随着新词的不断出现,中文分词结果中出现过多的“散串”,影响了分词的准确率。因此,新词发现已经成为中文自动分词的一个难点和瓶颈问题。另外,新词发现也是信息检索和机器翻译等领域的关注之点。
本文将新词发现问题分成新词检测和识别两个子问题。新词检测模块采用了两种新词检测方法,一种是基于条件随机场(Conditional Random Fields,CRF)将新词检测与自动分词相结合,另一种是基于PAT(Patrical Algorithm to RetrieveInformation Coded in Alphanumeric,PATRICIA)数组提取重复字串,本文利用这两种方法提取候选新词;新词识别则被定义为一个二元分类问题,特征采用了新词检测过程中得到的局部特征即分词置信度以及词频、词语连接测度(SymmetricConditional Probability and Context Dependency,SCPCD)等全局特征,采用支持向量机(Support Vector Machine,SVM)作为分类器,对候选新词进行分类;最后将两个结果加以融合。实验证明该方法适用于从大规模语料库中自动高效地发现新词。