论文部分内容阅读
语言知识库是自然语言处理的基础资源,知识库中知识的丰富程度、知识表示形式以及知识的组织方式直接关系到基于知识库的自然语言处理应用的性能。现有基于领域分类的知识库大多是在以人为对象的词典基础之上建立起来的,知识的覆盖度低,知识库更新周期长,独立存储的领域知识无法满足知识共享以及降低知识冗余的需求。另一方面,现有自然语言处理应用大多只涉及到词汇层面的知识,而以概念以及概念之间的关系为描述对象的语义知识很少被使用,从而限制了相关应用的性能。针对现有知识库在构建和使用中存在的不足,本文提出一种基于通用电子词典来自动扩充领域词典的词汇领域标注方法,并借助本体知识库良好的分类特性、概念的形式化描述来改善现有知识库在知识表示、知识存储和知识共享等方面的性能。本文的主要工作包括以下四个方面:1.提出一种基于词汇注释信息的单词领域标注方法。该方法利用领域词典和一部包括词汇注释信息的通用电子词典来训练领域标注模型,并利用该模型自动为通用电子词典中的新词加注领域标记,在降低人力成本的前提下提高知识库的覆盖度;2.提出一种自适应的层次化分类体系生成方法,并在该分类体系的基础上实现层次化的领域标注。该方法利用领域词典所包含的词汇信息来分析领域之间的相关度,在此基础上自动生成层次化分类树,并进一步实现自顶向下的层次化领域标注方法;3.针对领域术语存在“一词多义”和“多词同义”的问题,提出一种基于本体的概念化特征描述模型C-VSM,通过将文本中的词汇映射到本体上的概念节点,达到词义消歧和合并同义词的目的,在有效减少文本特征数量的同时提高主要特征的权重,从而提高文本表示的准确性;在此基础上实现训练文本和待分类文本的概念化表示,从而将C-VSM用于传统的文本分类器;4.研究实现了基于C-VSM模型的文本分类算法,包括特征选择方法、特征权重计算和文本相似度计算等。针对低频特征和非平衡语料对文本分类性能的影响,提出一种信息增益和文档频率相结合的均匀特征选择方法;在此基础上通过分析概念间的语义关系来调整特征的权重值,并实现了一种新的文本相似度计算方法。