面向文本分类的基于最小冗余原则的特征选取

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:axcom
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在文本分类中,为了降低计算复杂度,常用的特征选取方法(如IG)都假设特征之间条件独立。该假设将引入严重的特征冗余现象。为了降低特征子集的冗余度,本文提出了一种基于最小冗余原则(minimal Redundancy Principle,MRP)的特征选取方法。通过考虑不同特征之间的相关性,选择较小冗余度的特征子集。实验结果显示基于最小冗余原则方法能够改善特征选取的效果,提高文本分类的性能。
其他文献
<正>中兴通讯凭借多年通信产品开发经验,并根据国内外移动市场发展的最新情况开发了新型移动通信系统——ZXG10,该系统采用GSM PhaseⅡ+标准,同时兼容GSM900和DCS1800,可以支
企业在建立质量体系时,应结合本身的实际情况,选择最佳的方案.本文针对各个企业本身的特点,提出建立与健全质量体系的三个行之有效的方案.
<正>一.在TEM小室中进行灵敏测量的方法用TEM小室对BP机——整装天线通信设备之一进行灵敏度测试,已被列人GB/T 15938-1995《无线寻呼系统设备总规范》中.它规定:8个方向测出
中国经济社会的发展到了一个历史性变革的关键时期,尤其是农村的综合改革更需要“顶层设计,系统集成”。随着主体功能区建设的启动和深入,中国将面临有史以来最大规模的劳动力转
随着市场竞争的加剧,产品质量和服务质量已成为市场贸易中的重要指标,由于这两者都取决于企业员工本身的品质,因此的人员品质便成为企业赢得竞争的必胜武器。
第三次中美战略与经济对话5月9日在华盛顿拉开帷幕。作为世界最大发展中国家与世界最大发达国家之间的高层对话,在对话的第一天双方就释放出积极信号,高层言论表明双方推进务
现有的文本聚类方法难以正确识别和描述文本的主题,从而难以实现按照主题对文本进行聚类。本文提出了一种新的基于主题的文本聚类方法:LFIC。该方法能够准确识别文本主题并根据
“十二五”期间,中国面临经济增长模式转型的艰巨任务。林毅夫、刘志彪等学者研究发现,我国各省份间存在的市场分割是阻碍经济增长模式转型的重要因素之一,具体表现为:一方面,由于
生产工艺流程卡既是规范企业生产管理的一种形式,也是实施贯彻ISO9000系列标准的内容之一
改革开放30多年来,政府不断实施自我革命,规范和约束行政权行使。特别是20世纪90年代以来,与建立和完善社会主义市场经济体制相适应,依法行政逐渐成为政府行为的基本准则,行