论文部分内容阅读
中文词法分析是中文信息处理的重要基础,汉语是没有自然分割的连续文本,古代汉语更是没有任何边界标志,我们现在所看到的文言文中的标点符号,都是后人为了方便人们阅读而添加的。为了帮助人们更加方便、深入的学习和研究古代汉语,必须首先对连续的词语进行处理即分词标注。本文基于统计自然语言处理的方法,重点研究了古今汉语分词标注模型,在已有的古今汉语平行语料库学习平台中添加了词法分析模块,为系统中的翻译模块奠定了基础,并提供了非常珍贵的资源。
本文将从训练语料的加工、分词标注工具的模型、古今汉语学习平台词法分析模块三个方面分别阐述本文所做的工作。
训练语料的加工:训练语料的加工过程严格,语料的加工经过了分词、标注、机器校对、人员校对四个步骤,这四个步骤的实施保证了训练语料的正确性。首先,于加工语料之前制定了加工规范和标注集,其次,对语料加工人员进行了严格的遴选,择定北京师范大学文学院古汉语方向的研究生进行语料加工,再次,利用程序对训练语料的格式进行了校对,最后,再次进行了人工校对。训练语料的完成为后续的分词标注提供了宝贵的资源。
分词标注模型:分词标注模型是整篇文章的核心部分,该部分解决了分词标注算法、分词词典结构、古汉语词典建立等几个问题。这部分主要运用了perl语言对二元语法模型进行了训练,提取词典词条信息,利用全切分算法和马尔可夫标注模型研究分词标注模型。尤其在古汉语分词方面,将虚词的位置信息作用到了马尔可夫模型标注器上,提高了处理结果的准确性。
古今汉语平行语料库词法分析:该模块是本论文的研究成果的应用,设计并实现了一个实用、开放、易于扩展的古今汉语分词、学习、应用的平台。
依据统计自然语言处理方法,本文探讨了基于统计的古今汉语分词标注,从资源建设到核心理论研究,再到应用实现的一整套系统化过程中,遇到的问题及解决方案,并不断通过实验来加以改进,最终的实验结果是令人满意的。