基于粗糙集和遗传算法的文本分类研究

来源 :微计算机信息 | 被引量 : 0次 | 上传用户:wuyan68
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动文本分类是数据挖掘和知识发现的关键一步.标准的机器学习技术(如SVM等)已经成功地应用于文本分类.但是,高维度的特征向量影响了分类速度和核函数的设置以及特征的选择则影响了分类的精度.该文提出了降低特征向量的维度和优化SVM参数来提高SVM分类的精度和速度.为了提高分类的速度和精度,该文提出了使用粗糙集对特征向量进行降维,使用遗传算法对特征选择和SVM参数进行优化.实验表明基于粗糙集和遗传算法的SVM分类方法比传统的k-NN和决策树方法更有效率.“,”Automatic categorization of documents into pre-defined taxonomies is a crucial step in data mining and knowledge discovery. Standard machine learning techniques like support vector machines(SVM) and related large margin methods have been successfully applied for this task. Unfortunately, the high dimensionality of input feature vectors impacts on the classification speed. The kernel parameters setting for SVM in a training process impacts on the classification accuracy. Feature selection is another factor that impacts classification accuracy. The objective of this work is to reduce the dimension of feature vectors, optimizing the parameters to improve the SVM classification accuracy and speed. In order to improve classification speed we spent rough sets theory to reduce the feature vector space. We present a genetic algorithm approach for feature selection and parameters optimization to improve classification accuracy. Experimental results indicate our method is more effective than traditional SVM methods and other traditional methods like k-NN and Decision Tree.
其他文献
通过几种微乳剂制剂的热贮稳定性试验,研究了pH值对制剂质量的影响,发现制剂中有效成分稳定贮存的pH值范围与有效成分纯品稳定的pH值范围并不一定一致。因此,制定微乳剂制剂
主要对当前结构化P2P网络中的节点动态性带来的资源查找和传输的延迟问题,提出了一种逻辑分放节点资源的RSTree结构算法,该算法在一定程度上借鉴原有的Chord协议的路由机制的
由于目前高校存在诸多自封闭业务系统,彼此数据互不连通,管理松散,导致构建在其上的传统短信服务平台的可扩展性和可维护性较差.针对以上问题,提出了一个基于Web Services的
以蝗虫微孢子虫的活性变化为参数筛选润湿分散剂、黏度调节剂和悬浮稳定剂等助剂,通过助剂用量的组合,配制蝗虫微孢子虫水基悬浮剂。配方优化试验表明,单个润湿分散剂及组合
会议
通过有机概念图选择了环己酮、正丁醇作为溶剂,以农乳700#、TX-10、农乳A分别和农乳500#进行复配,以增溶水量、冷贮稳定性等指标进行优化,得到了以正丁醇为溶剂,m(农乳A):m(农
针对捷联惯性导航系统性能指标与体积限制,设计了一种基于DSP56F807的捷联惯性导航系统.详细阐述了系统的设计思想、软硬件结构、捷联算法,给出了相应的系统原理图、软件流程
本文介绍了喷雾机综合试验台的结构组成、工作原理和适用范围,并总结了试验台的特点,该试验台用计算机辅助控制对液泵、喷头各项性能指标进行综合测试,测试范围广泛,测试手段
目前负载均衡研究主要关注网络服务器的负载均衡调度策略,缺少负载均衡性能的理论研究和评价.该文利用排队论分析分布式系统的网络服务器负载均衡模型,并对该排队模型的平均
该文设计以ATmega128单片机为核心的网络型门禁控制系统,采用了小型嵌入式TCP/IP协议栈uIP0.9和嵌入式数据库技术,实现了网络技术和门禁系统的结合,具有较强的实用性和组网的
阐述了慢滤系统抑制营养液中土传病原菌的原理及装置特点,并对慢滤装置的抑菌效果进行了综合分析和评价。慢滤系统的消毒不是杀死病原菌,而是通过过滤、吸附等物理化学作用达