论文部分内容阅读
随着Internet技术的飞速发展,各种多样化的庞大信息资源每天以数量级的形式增长,在海量信息资源中大多数信息仍是以文本的形式存在,如何管理、组织如此庞大且不断增长的文本信息,并且从中挖掘出人们需要的相关信息已成为一项具有研究价值的课题,近年来得到国内外学者的广泛关注。文本自动分类技术应时代的需求自此产生,并且随着该技术地不断发展,已成为各种搜索引擎、信息检索、信息过滤等问题的行之有效地解决办法,成为一项具有广泛应用前景和使用价值的关键技术。随着越来越多学者的关注和研究,目前已在国内外学术界掀起一股热潮。在文本自动分类过程中,包括多项关键技术:分词、特征选择、向量空间模型、建立分类模型、分类评价指标等。基于机器学习的文本自动分类大多建立在向量空间模型之上,在空间向量模型中,将文本以计算机能够识别的形式表示出来,通过特征权重计算方法计算出文本中处于重要地位并且能够较好地表示文本类别的特征词的权值,忽略掉对分类没有贡献或者说贡献不大的词。这样做的目的一是可以降低文本向量空间的维数,提高文本分类的效率,二是可以使选择出来的特征词能够更好地代表文本,提高文本分类的精度。因此,文本特征权重计算方法是文本分类的基础和前提,具有重要的地位。基于以上分析,本文将研究重点放到特征项权重计算方法的改进上。所做工作主要如下:(1)介绍了文本分类的研究背景和理论知识,分别介绍了国内、外文本分类技术的发展状况和优秀分类体系。(2)阐述了文本分类的关键技术,主要包括文本预处理、特征降维、文本表示、文类算法及分类评价指标等。(3)详细分析了经典的特征权重算法TFIDF,并指出传统算法的缺点,主要针对于特征词分布于类间、类内以及类别分布偏斜的数据集三种情况下,对传统特征权重算法提取出的特征词对文本分类效果的影响进行分析,指出其问题及不足。同时针对目前基于传统TFIDF进行改进的特征权重算法进行介绍和对比分析,文中重点对以上提出的问题表现优秀的TFIDF-DI算法进行分析和讨论。(4)描述偏斜数据集的概念和近年来基于该概念产生的新理论和新方法,用传统特征权重算法TFIDF和TFIDF-DI两种算法进行对比实验分析,指出这两种方法对于分布偏斜的数据集所具有的缺点,并分析其原因。(5)通过详细分析对比,在TFIDF-DI算法基础上提出新的改进算法TFIDF-λDI算法,引入λ因子用以修正基于偏斜数据集的文本分类问题,通过实验对传统特征权重算法TFIDF和基于TFIDF改进的优秀算法TFIDF-DI及本文提出的新的改进算法TFIDF-λDI进行对比分析,实验结果显示本文提出的TFIDF-λDI算法对于数据集分布偏斜情况下的文本分类问题具有较好的效果。