论文部分内容阅读
自动分词是中文信息处理领域的一项基本技术,也是智能化中文信息处理的关键,它在机器翻译、信息检索、文本分类等中文信息处理的各项任务中都发挥着基础性的重要作用。
本文在分析中文分词技术现状和问题的基础上,采用和试验了一种基于字位的新的分词方法。此分词方法以中文字在词中的位置分布为依据进行切分,平衡地看待词表词和未登录词,因此在未登录词识别方面有比其它方法更优秀的表现。本论文分别使用最大熵和条件随机场这两种机器学习模型来实现并通过实验得出结果的比较分析。最后对本文的研究工作进行总结,并对未来的继续研究方向和发展前景做出展望。
本文的贡献和创新主要有以下五个方面:(1)探索研究了最新的基于字位的中文分词方法:此方法通过确定每个字在词中的位置来确定分词,把分词问题转变为分类问题。(2)运用试验了最大熵和条件随机场两种具体的处理方法在字位分词中的应用。(3)对特征模板选取和训练模型进行了较为深入的研究:分别使用最大熵和条件随机场比较6特征模极和10特征模板的分词准确率,并对两种模型进行比较。(4)汉字位置标记集选择:对Bakeoff十二种语料库进行分析最终选用6字位标记。(5)未登录词的处理:对汉字位置进行标记,平衡地看待词表词和未登录词,较好的处理未登录词,同时也兼顾切分歧义。