一种基于聚类的文本特征选择方法

来源 :计算机应用 | 被引量 : 0次 | 上传用户:winseywong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的文本特征选择方法存在一个共性,即通过某种评价函数分别计算单个特征对类别的区分能力,由于没有考虑特征间的关联性,这些方法选择的特征集往往存在着冗余。针对这一问题,提出了一种基于聚类的特征选择方法,先使用聚类的方法对特征间的冗余性进行裁减,然后使用信息增益的方法选取类别区分能力强的特征。实验结果表明,这种基于聚类的特征选择方法使得文本分类的正确性得到了有效的提高。
其他文献
目的探讨脂多糖(LPS)对体外培养人甲状腺细胞一氧化氮(NO)的诱生作用及对细胞膜上钠/碘转运体(NIS)基因表达的影响。方法采用细胞培养方法及半定量逆转录聚合酶链反应(RT—PCR)技术,观
<正>这几年,博物馆热了。1996年,马未都创立了中国首家私立博物馆——观复博物馆,开启了中国民办博物馆的大幕。时至今日,在高烧不退的收藏热中,民办博物馆已经走过近20年的
研究了阿拉善双峰驼从出生到15岁龄的体重、体高、体长、胸围和管围的变化,结果显示:骆驼的早期生长速度最快,随着年龄增加,生长速度下降,到6岁龄后生长基本停止,达到体成熟.
清末新小说家在放眼海外重新认识世界的同时,也开始了对中国过去、现在和未来的重新审视,他们以感时忧国的满腔热情从事唤醒民众改良政体的“新小说”创作,并取法日本明治维
[目的]探讨低剂量照射及低剂量联合大剂量照射对人红白血病细胞系K562凋亡、线粒体膜电位(MMP)变化及Caspase-3活性的影响及其可能机制。[方法]实验分成4组:对照组(0Gy)、低
本文简述了转基因动物技术的发展、现状和转基因动物的技术原理,介绍了显微注射法、反转录病毒法、精子载体法、胚胎干细胞法和体细胞核移植法制作转基因动物以及转基因动物
民事诉讼法律关系是一个既涉及诉讼理论又涉及诉讼实践的重要问题。但目前,学界对于民事诉讼法律关系的本质、主体、客体、内容等问题尚存在诸多不同认识。探讨这些问题,对于
新闻专业主义来到中国,不少学者对其进行了本土化探索,使其对于我国的新闻传播事业的发展做出贡献。在当今的自媒体时代背景下,新闻专业主义对自媒体人是否依然适用?答案是一
数字测井系统以小型化、轻便化的特点被测井行业广泛应用。本文探讨了PSJ-4数字测井仪三侧向电阻率测量在浅层水文地质勘探中的应用,改进了该系统在浅层(0~20 m)三侧向电阻率
<正> 清代思想家和文学家龚自珍所写的杂诗,就是《己亥杂诗》。这是作者晚年所写的大型组诗,共计三百一十五首。道光十九年(公元1839年)的夏天,龚自珍被迫辞官南归和后来北上