论文部分内容阅读
文本分类技术是信息检索和文本挖掘的重要基础,其主要任务是在预先给定的类别标记(1abel)集合下,根据文本内容判定它的类别1。通过文本自动分类,系统能够对信息进行有效的管理,提供便捷的信息服务。朴素贝叶斯能够快速高效的完成分类任务,且能够很好的进行增量变化,这使得其在基于自动分类的服务系统中受到广泛应用。在学术文献中,存在着大量的引用文献,通过其形成的引用网络能够获得许多原文献中缺少的信息,利用引用网络和引文可以有效的改善分类效果。将引文网络以及引文域与贝叶斯算法相结合,可以构建高效的分类器为学术研究提供信息服务。本文主要工作如下:1、本文系统地介绍了文本自动分类的一般流程。之后详细分析了贝叶斯的基础理论模型,总结分析得出朴素贝叶斯对于属性特征的敏感性,即其受到噪声的影响较大。因此特征选择对于朴素贝叶斯分类十分重要。在其基础上对不同改进模型的研究现状与性能优缺点进行了系统综述。贝叶斯主要改进模型通常称为半朴素贝叶斯分类,该类模型能够更好地满足朴素贝叶斯的词项独立性假设,却会在一定程度上提高时间复杂度,在使用中需要根据不同需求选择不同模型。其主要分为z-依赖分类器、有效特征子集、加权贝叶斯三种改进方式。之后本文对包括引用网络在内的各种网状数据分类方法进行了较为全面的解读。2、本文参考网状结构数据分类的理论与应用成果提出利用引用关系、引文域词项特征及不同域加权对分类方法进行改进。此外,本文利用学术文献引用中存在的部分引文多次被施引文献引用的现象,利用引用频次对引用关系和引文域词项进行加权,以帮助更好的分类。基于该思路,本文设计了4个实验,得到了如下结论:(1)引文信息可以提升学术文献分类的效果。单独使用引用信息(引用关系、引文域词项)的分类效果在准确率和召回率指标上低于传统分类器;基于引文域词项的分类器与正文分类器相结合可以有效提高分类效果。(2)对题名(title)、摘要(abstract)、正文(body)、引文(reference)题录词项赋予4:2:1:2的权重在众多加权方案中可以获得最优的分类效果。(3)引文特征在训练集选取较少的情况下对引文与正文分别建模的分类器准确率提升的效果更为突出。在多项式、贝叶斯网络以及多元伯努利模型等三个分类器中,后者结合引文域词项特征的表现最好。(4)不同分类模型的分类效果存在差异。在召回率指标上,基于文本域加权的WNB分类器表现最优;在准确率指标上,引文域与正文词项相结合的(CTNB)分类器准确率提升更为明显;综合准确率和召回率指标,CTNB的分类效果更值得期待。(5)引文特征对内聚性不同类簇的影响。引用关系特征在准确率指标上对内聚性强的类簇有积极影响,而对召回率指标的影响则相反;反之,引用关系特征在准确率指标上对耦合性强的类簇有积极影响,而对召回率指标的影响则相反;引文域词项分类器整体优于引用关系分类器。