中文文本分类中特征选择方法的比较

来源 :现代计算机:下半月版 | 被引量 : 0次 | 上传用户:haolei88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自动文本分类系统中,特征选择是有效的降维数方法。通过实验对中文文本分类中的特征选择方法逐一进行测试研究,力图确定较优的中文文本分类特征选择方法。根据实验得出:在所测试的所有特征选择方法中,统计方法的分类性能最好,其次为信息增益(IG),交叉熵(CE)和文本证据权(WE)也取得了较好的效果,互信息(MI)较差。
其他文献
英国设计师Rob Gaukroger设计的爱丽瑞森林学校,位于湖区国家公园。温德米尔区曾是英国湖畔诗人的隐居之所,大自然优美的风光使湖畔诗人写出了大量清新脱俗的佳作,而今依然是一
无论在发达国家还是发展中国家:农业保护已经成为一种普遍的国际现象。近些年我国农业支持保护政策虽然得到不断加强,但与成熟的市场经济国家相比,我国的农业支持保护机制尚不完
针对目前入侵检测系统不能有效检测未知入侵行为的问题.根据遗传算法在动态环境中的鲁棒性、自适应性强的特点.提出了一种基于网络的异常检测算法来检测网络数据。该算法弥补了
深入分析Java异常处理机制的特点,详细探讨J2EE项目中异常处理所遇到的问题以及异常处理的重要性,总结出一套基于多层次架构的J2EE项目的异常处理策略。
介绍基于GPRS和Internet技术的电磁流量监控系统设计方案.给出监控终端硬件电路设计,重点介绍终端和数据中心软件设计,在单片机中实现UDP/IP/PPP协议。实验表明,该系统不仅具有传统
出于不同的应用目的。许多学者提出了各种不同的属性约简概念。给出相对熵保持不变的条件。利用相对熵定义了决策表的相对熵约简。证明相对熵约简与HU的差别矩阵和差别函数的
数据仓库是分析历史的、大批量数据的热门技术。通过介绍数据仓库和OLAP有关概念,并以具体网络流量主题分析为例,阐述如何构建数据仓库,并进行OLAP分析,以进行决策支持。
为了解决简单的遗传算法中容易出现“早熟收敛”等问题.需要对遗传算法进行改进。改善的算法采用自适应的交叉和变异算子.让交叉和变异概率随适应函数值的变化而变化。测试证明
ICT(信息和通讯技术)产业的技术标准具有典型的网络效应,企业应根据网络效应的特性,制定自己的技术标准竞争战略。本文将企业的标准竞争战略归纳为三种类型,详细讨论了每种战略类
中国目前尚未形成战略性新兴产业的可量化的衡量标准和指标体系。本文基于文献综述和战略性新兴产业的本质分析,提出了由三个一级指标、九个二级指标、十个测度指标构成的战略