论文部分内容阅读
随着自然语言处理和文本挖掘技术的发展,从非结构化文本中挖掘和抽取相应的知识日益成为一种趋势,而基于面向网络构建的英汉双语平行语料库,从中挖掘和抽取词汇、简单短语和复杂短语等句法级上的相应知识正是在这一趋势下的一种探究。挖掘和抽取的知识不仅有利于知识库构建、知识服务、信息检索、信息计量等情报学中的相关研究开展,而且有助于自然语言处理中的歧义消解、知识抽取和机器与辅助机器翻译问题的解决。基于各种模型和算法,结合多种研究方法,使用各类别的语料库,本文完成了词汇、简单短语和复杂短语三个句法层面上的知识挖掘和抽取。在引言中说明了开展本研究的背景、意义、创新点、整体流程、文章的整体框架和所使用的资源。在文献综述章节里,围绕着词汇、简单短语结构和复杂短语结构三个句法层面的知识挖掘和抽取进行了多角度的相关研究综述。面向网络获取了英汉双语通用和专门平行语料,构建了相应的英汉双语平行语料库。在该部分主要围绕确定抓取网站、制定抓取底表、通过抓取工具获取网页、抽取英汉双语平行语料对、清洗英汉双语平行语料对和对英汉双语平行语料对进行去重处理等问题展开了探讨。在词汇这一级,结合情报学中的相应方法和知识,挖掘出了英汉双语词汇在句法功能分布复杂度上呈现洛特卡现象的规律。在该部分,基于英汉双语平行语料库、宾州大学英汉树库和清华汉语树库,统计了英语和汉语词汇句法功能的分布,分析了英语和汉语词汇的句法功能分布复杂度情况,计算得出了英语和汉语词汇的平均句法功能分布复杂度值,揭示了词汇句法功能分布复杂度所呈现的洛特卡现象。在简单短语这一级,通过介宾短语结构,基于条件随机场这一机器学习模型,构建了英汉双语介宾短语结构知识抽取模型,并给出了英汉双语介宾短语结构知识抽取的流程。本文在该部分统计了介宾短语结构的内部和外部句法特征、给出了训练语料的预处理格式、详细说明了自身特征模板和添加特征模板的具体构成内容并与最大熵的性能进行了对比。在复杂短语这一级,基于已有聚类算法,通过构建词汇和词性特征知识下的类别知识挖掘模型,完成了面向英汉双语专门平行语料的类别知识挖掘的探究。本文通过具体的实验证实了英汉双语词汇特征在类别知识挖掘中的性能,并给出了造成类别知识挖掘性能有差异的原因,同时使用词汇和词性的特征知识,在英汉名词,英汉名词、动词,英汉名词、动词和形容词这三种词汇和词性特征组合的基础上,探究了词性知识在类别知识挖掘上的具体表现。