论文部分内容阅读
语言是信息传递的载体,语言文字处理技术的发展对信息化建设起着至关重要的作用。自然语言的不断发展研究表明高质量、大规模、基于真实文本的语料库建设对语言信息的处理发挥着重要作用。语料库是支持信息处理高级应用的基础,因此,保证语料库建设的高质量是自然语言处理研究领域的重中之重。随着语料库加工程度的不断深入,语料库建设的一致性成为语料库建设的七条基本原则之一。虚词是现代汉语中不可或缺的一部分,对于现代汉语的语义理解起着重要的作用。虚词语料库的建设是现代汉语知识库建设的一个重要方面。保证虚词语料库建设的一致性对现代汉语的发展有着重要的意义。在现代汉语虚词知识库中,虚词用法标注的一致性对语料库的建设起着质量把关的作用。虚词用法标注的一致性指的是在相同或相似的上下文环境中,同一个的虚词有着相同的用法。本文在研究虚词用法标注的一致性问题中,采用不同的方法进行虚词用法一致性检测。首先,采用提取上下文窗口字符特征的方式对虚词上下文窗口中的词性进行提取来模拟其所在的上下文环境,在语料库中查找相同字符特征串的虚词用法语句,将这些语句进行归类比对来查找其中的不一致。实验表明在选择合适的虚词上下文窗口的条件下,能有效够识别上下文中用法标注不一致的语句。将识别到的用法标注不一致的语句进行修改,从而提高虚词用法标注语料库标注的一致性。其次,采用在自然语言处理中有着良好表现的条件随机场(CRF)、支持向量机(SVM)、最大熵(ME)三种不同的分类模型。将实验语料进行特征选取、特征信息计算,用模型对用法标注进行分类。分别统计分类模型的虚词用法标注不一致性,并将三种模型的分类结果加以组合形成不同的类型,从这些类型中找出虚词用法标注的不一致现象。通过实验表明,用上述的方法能够很好的检测出虚词用法标注中的不一致地方,即提高了虚词用法标注的一致性。最后,对本文所采用的虚词用法标注一致性研究的方法进行了归纳总结,并对开展更深入的一致性研究进行了展望。