文本分类中特征权重因子的作用研究

来源 :第五届全国信息检索学术会议CCIR2009 | 被引量 : 0次 | 上传用户:shihaiquanhanhan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在文本分类任务中,通常首先以TFIDF模型表示特征权重,进而通过特征选择函数给出的得分将特征排序,排名靠前的特征以其TFIDF值输入分类器。特征选择函数所计算出来的得分能一定程度代表特征的重要性,然而该得分却没有被纳入权重表示中,造成特征表示不精确,影响了分类性能。许多改进方法使用特征选择函数等反映特征在不同类别间分布的指标来替换IDF因子或将其加入TFIDF模型中,使分类性能得到了一定的提高,但没有探究各个因子是如何影响分类性能的。本文以词频(TF)、逆文档频率(IDF)以及特征选择函数(IG及CHI)作为衡量特征的文档代表性、文档区分性以及类别区分性的因子,通过实验方法测试了这些因子对于分类性能的影响,得到如下结论:文档代表性因子能够使得分类效果的峰值最高但抗噪音能力差,文档区分性因子具有抗噪音能力但性能不稳定,类别区分性因子的抗噪音能力最强,性能也最稳定。进而说明了如何组合这些因子以得到分类性能的优化,给出了四点构造原则,并通过实验得到了验证。
其他文献
期刊
高校BBS论坛信息内容与学校日常工作、校园学生活动密切相关,其信息丰富且更新速度快。但是BBS上各版面的讨论内容并不严格与其版面名称相对应,因而会使信息显得杂乱。聚类技术
会议
蛋白质络合物在很多生物学过程中起到了关键的作用,是深入理解细胞组织原理的基础。随着生物高通量技术的不断发展和广泛应用,蛋白质相互关系的数据量随之不断膨胀,这些数据为蛋
会议
基于统计的领域术语抽取方法近年来得到了广泛的研究。然而领域术语抽取方法与领域相关,并且评价需要大量的人力资源,因此对这些方法进行比较存在着一定的困难。因此本文采用基
会议
仿生模式识别是一种不同于传统模式识别的理论方法,其理论基点是特征空间中同源样本的连续性原理,并通过对同类样本在高维空间中的最佳覆盖来达到认识和区分样本的目的。本文对
会议
提出一种采用树型概要结构的密度网格树流聚类算法DG-Tree(Density and Grid-Tree Algorithm)。该算法利用数据流聚类算法CluStream中的处理框架,把聚类分为微聚类和宏聚类两
会议
本文使用multi-agent的建模思想,以现实为基础建立了一个舆论涌现的仿真模型。该模型主要由个体和媒体以及它们之间的规则组成。个体的属性包括了个体之间的信任度、个体观点
会议
本文通过对呼和浩特市失地农民状况的调查和对失地农民养老保险实施办法的研究,分析了现行办法在引入商业保险运作理念方面的先进性,同时结合呼和浩特市的现状,对现行失地农
传统聚类算法通常建立在显式的模型之上,却很少考虑泛化模型以适应不同的数据,由此导致了模型不匹配问题。针对此问题,本文提出了一种基于空间映射(Mapping)及尺度变换(Rescalin
会议