论文部分内容阅读
爆炸式增长的信息资源缺乏内容的结构化,大大降低了人们的检索效率。因此,如何将庞杂无序的资源组织起来,提高人们利用信息的效率,成为信息科学当前的一个重要课题。 良好的信息组织和资源表示是高质量信息检索的基石,文本内容标引,特别是其内部特征如类目和主题词的标引,是信息组织和资源表示的核心。本文利用特征提取方法,在大规模分类语料库中将具有较强特征表示功能的关键短语(Key Phrase)提取出来,并按主题聚类。在此基础上,完成了一个知识与统计相结合的文本分类和主题词标引系统,从而将文本内容以精练准确的形式标引出来,方便用户只须查看容量少信息量大的类目和主题词,即可快速把握文本内容, 围绕分类主题一体化,本文主要取得了以下研究成果: 1、提出并证明了关键短语比词更适合作为文本表示特征的观点。 关键短语是具有强文本表示功能的特征短语,在表示文本时,能将文本的內容特征(例如领域类别、主题思想、中心意义等)鲜明地表示出来。关键短语具有结构稳定、语义完整和强统计意义的特点,在较大程度上可以克服向量空间模型和贝叶斯假设的缺点,比词更适合作为文本表示的特征,有利于提高文本分类和关键词标引的效果。在约3万篇测试集上(共12个大类,217个小类),和以词为特征的相比,以关键短语为特征的文本分类的大类微平均提高了约3.1%,小类微平均提高了约15%(以体育中的层级小类为例)。 2、构建了一个超大规模、详细标注的层级分类语料库。 利用信息抽取的方法,从下载的网页中抽取得到语料库建库所需的内容信息,如标题、关键词、类别、时间、正文等。通过分析18家网站(15家主流报纸网站和3家门户网站)的栏目设置情况,建立了一个网页分类体系,体系最深为四级,类目总共229个。在此基础上,构建了一个超大规模的层级分类语料库,时间跨度为3年,共约60万个文件,约6亿字,并进行了段落级XML标注。该语料库字段信息丰富,分类系统实用,内容结构化,不仅是关键词抽取和词语聚类的知识来源,也是文本分类、主题词标引的大型训练(测试)集。 3、以关键短语为基础,构建了一个含32万词语的大词语表。 从上述语料库中抽取网页上专家已手工标引的关键词来获取关键短语(分类别抽取,共约22万条),与常用的词表(8万词条)相比较,关键短语的新词率约为78%(以科技类为例)。将关键短语(还有其它数字字母串等)和8万词条合在一起,最终形成一个含32万词条的大词语表。 4、利用物征提取方法进行词语聚类,构建了一个超大规模的领域知识库。 在上述语料库中,我们利用特征提取方法进行了词语的领域聚类,并以关键词为核心进行了扩展的词语聚类。考虑到领域词语包括领域通用词语(如体育类的“球、比赛”)和领域专类词语(如垒球中的“跑垒”),我们通过调节词频的影响结合领域通用词语和领域专类词语进行聚类。最终形成了229个分类词语表和11215个关键词聚类后的词语表,并训练得到32万词语的体现各词语区別领域能力的类别区别度,一起构成文本分类和关键词标引的领域知识库。