一种基于特征重要度的文本分类特征加权方法

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:aqgcsw2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对文本分类中的特征加权问题,提出了一种基于特征重要度的特征加权方法.该方法基于实数粗糙集理论,通过定义特征重要度,将特征对分类的决策信息引入到特征权重中.然后,在标准文本数据集Reuters-21578 Top10和WebKB上进行了实验.结果表明,该方法能改善样本空间的分布状态,使同类样本更加紧凑,异类样本更加松散,从而简化从样本到类别的映射关系.最后,使用Nave Bayes,kNN和SVM分类器在上述数据集上对该方法进行了实验.结果表明,该方法能提高分类的准确率、召回率和F1值.
其他文献
2014年12月20日,国家主席习近平到位于横琴岛的澳门大学新校区考察,并向澳门大学赠送《永乐大典》重印本和《北京大学图书馆藏稀见方志丛刊》,并现场在赠书函上签名。《北京
作者所在的学校化学教研组自2014年下半年以来积极探究"262"课堂教学模式。在实际教学过程之中,教师在建立并完善小组合作与竞争机制基础上,通过教师引导、学生合作探究等教
文章以"让化学成为关注社会问题的工具"为主题,通过主题创设情境,巧设问题探究主题,达成目标升华主题,对二氧化硫性质复习进行教学设计。在实施过程中,以情境线、知识线、活
采用三聚氰胺氰尿酸盐(MCA)/聚氨酯(TPU)复合阻燃剂阻燃PA66,解决了单独使用MCA阻燃PA66熔滴引燃脱脂棉问题,可使1.6 mm样条通过UL94V-0级别;研究了MCA/TPU复合阻燃剂阻燃PA66
本文总结了我国社会主义民主建设在党和国家政治生活、经济生活和社会生活等方面所取得的巨大成就,并从理论上论述了有中国特色的社会主义民主的四个特点:国体和政体的统一;政治
通过"指导学生研读——引导学生合作探究——强化跟踪训练——提高自我反馈"的课堂教学设计,让学生会"研读"、会"动手"、会"运用"、会"思考",成为学习的主体。
<正>我国房地产库存形成主要来源于两个方面,一是待售商品房和在建房屋形成的库存,消化周期为4.7年;二是土地购置用于开发形成的库存,消化周期为3年左右。总体上看,未来房地
本文认为,从春秋战国之际开始,各国君主周围逐渐形成一个以相为核心的官僚统治集团,它不仅是政治权力的中心,而且往往也是社会变革的策源地及外交、经济、军事等国家大事决策的枢
Boosting是一种有效的分类器组合方法 ,它能够提高不稳定学习算法的分类性能 ,但对稳定的学习算法效果不明显 TAN(tree augmentedna veBayes)是一种树状结构的贝叶斯网络 ,标
特征选择在文本分类中起重要的作用.文档频率(DF)、信息增益(IG)和互信息(MI)等特征选择方法在文本分类中广泛应用.已有的实验结果表明,IG是最有效的特征选择算法之一,DF稍差