论文部分内容阅读
针对于解决交集型伪歧义字段的切分,提出了一种应用支持向量机的汉语歧义切分方法。歧义切分问题可看为一个模式分类问题,为提高字段处理能力,应用支持向量机方法建立分类模型。先对歧义字段进行特征提取,采用互信息来表示歧义字段。求解过程是一个有教师学习过程,从歧义字段中挑选出一些高频伪歧义字段,人工将其正确切分作为训练样本并代入SVM训练得到一个分类模型。在分类阶段将SVM和KNN相结合构造一个新的分类器,对于待识别歧义字段代入分类器即可得到切分结果。实验证明不仅具有一定的识别准确率,而且可以提高歧义切分速度。