论文部分内容阅读
领域术语是反映领域特征的词语,可以从一定规模的语料中自动抽取。领域术语自动抽取是自然语言处理中的一项重要任务,可以应用到领域本体构建、专业搜索、文本分类、类语言建模等诸多领域,其研究基础是领域文本的自动判别技术。本文主要研究了领域文本自动判别方法、领域术语自动抽取方法及其应用,具体内容包括如下五个部分: 第一,研究领域文本自动判别方法,首先针对完整分类体系下的领域文本判别问题,实现了一个包含多种可定制的特征选择算法和分类算法的文本分类评测平台。其次,针对基于正例和未标注数据的领域文本判别问题,提出了基于样本置信度划分的领域文本判别方法:采用多策略样本标注算法,自动标注尽可能多的样本,并为不同途径得到的标注样本赋予不同置信度,最后采用基于样本置信度划分的加权支持向量机算法进行分类器训练。与传统方法相比,该方法可以提高基于正例的领域文本判别的性能。 第二,研究中文新词发现方法,为词语的领域类别判定提供候选新词。汉语词语是关联度较大、结合较为紧密的字序列。传统基于结合力抽取候选新词的方法均采用全局经验阈值的策略,而事实上很难选取一个恰当的全局阈值对新词进行合理有效的筛选。本文将局部最大算法引入汉语新词发现,利用词语的高内聚性和上下文独立性来筛选候选新词,并采用基于后缀数组的字串频率统计方法以提高计算效率,实验表明该方法是一种高效快速的新词发现方法。 第三,研究基于统计量度的领域术语抽取方法,在中文分词的基础上,将属于特定领域的词语抽取出来。在给定领域对比语料的前提下,利用信息熵来衡量词语在不同领域类别间的分布以及在其相关领域类别内的分布,并根据语料规模作正规化,提出了基于正规化的类间分布熵和正规化的类内分布熵的领域术语抽取方法。实验表明该方法能够更加准确和鲁棒地抽取领域术语。 第四,研究领域术语抽取自助学习方法。在给定种子术语集上,通过自助学习法来训练支持向量机分类器,利用术语分类器迭代地从未标注文档中获取属于给定领域的新术语。在术语表示上,传统方法将术语表示在文档空间中,这种表示法无法表示文档内部的信息,并且只能获取在多个文档中出现的术语。本文采用全局上下文表示法来表示每个词语,并采用潜在语义索引技术将词语特征空间映射到潜在语义空间。实验表明,基于全局上下文表示的术语抽取方法比基于文档表示的方法具有更高的术语抽取精度。 第五,研究了文本自动分类和领域问答式信息检索两方面的应用技术。在文本自动分类方面,首先将新词发现方法用于特征集扩展,其次将基于正规化分布熵的领域术语抽取方法用于特征选择;在领域问答式信息检索方面,本文首先给出了领域文本自动判别技术在领域文本采集中的应用框架,其次给出了旅游领域概念语义网络的构建过程及其在问答式信息检索系统的查询扩展中的应用。