基于粗糙集和遗传算法的文本分类研究

来源 :微计算机信息 | 被引量 : 0次 | 上传用户：wuyan68

【摘要】

：

自动文本分类是数据挖掘和知识发现的关键一步.标准的机器学习技术(如SVM等)已经成功地应用于文本分类.但是,高维度的特征向量影响了分类速度和核函数的设置以及特征的选择则

【机构】

：

扬州职业大学;江苏大学

【出处】

：

微计算机信息

【发表日期】

：

2009年33期

【关键词】

：

DOCUMENT CLASSIFICATION SUPPORT VECTOR MACHINE ROUGH SETS GENETIC ALGORITHMS

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

自动文本分类是数据挖掘和知识发现的关键一步.标准的机器学习技术(如SVM等)已经成功地应用于文本分类.但是,高维度的特征向量影响了分类速度和核函数的设置以及特征的选择则影响了分类的精度.该文提出了降低特征向量的维度和优化SVM参数来提高SVM分类的精度和速度.为了提高分类的速度和精度,该文提出了使用粗糙集对特征向量进行降维,使用遗传算法对特征选择和SVM参数进行优化.实验表明基于粗糙集和遗传算法的SVM分类方法比传统的k-NN和决策树方法更有效率.“,”Automatic categorization of documents into pre-defined taxonomies is a crucial step in data mining and knowledge discovery. Standard machine learning techniques like support vector machines(SVM) and related large margin methods have been successfully applied for this task. Unfortunately, the high dimensionality of input feature vectors impacts on the classification speed. The kernel parameters setting for SVM in a training process impacts on the classification accuracy. Feature selection is another factor that impacts classification accuracy. The objective of this work is to reduce the dimension of feature vectors, optimizing the parameters to improve the SVM classification accuracy and speed. In order to improve classification speed we spent rough sets theory to reduce the feature vector space. We present a genetic algorithm approach for feature selection and parameters optimization to improve classification accuracy. Experimental results indicate our method is more effective than traditional SVM methods and other traditional methods like k-NN and Decision Tree.

其他文献

pH值对微乳剂制剂热贮稳定性的影响

通过几种微乳剂制剂的热贮稳定性试验,研究了pH值对制剂质量的影响,发现制剂中有效成分稳定贮存的pH值范围与有效成分纯品稳定的pH值范围并不一定一致。因此,制定微乳剂制剂

会议

微乳剂制剂质量稳定性试验有效成分质量技术指标性状稳定性纯品贮存原药

P2P资源搜索关键算法的研究设计

主要对当前结构化P2P网络中的节点动态性带来的资源查找和传输的延迟问题,提出了一种逻辑分放节点资源的RSTree结构算法,该算法在一定程度上借鉴原有的Chord协议的路由机制的

期刊

P2P NETWORKRESOURCES MAPPINGHASH ALGORITHMDEGREE OF ACCESSRSTREE

基于WEB服务高校短信平台的设计与实现

由于目前高校存在诸多自封闭业务系统,彼此数据互不连通,管理松散,导致构建在其上的传统短信服务平台的可扩展性和可维护性较差.针对以上问题,提出了一个基于Web Services的

期刊

WEB SERVICESHETEROGENEOUS DATARESOURCE INTEGRATIONLOOSE COUPLING

蝗虫微孢子虫水基悬浮剂的研制

以蝗虫微孢子虫的活性变化为参数筛选润湿分散剂、黏度调节剂和悬浮稳定剂等助剂,通过助剂用量的组合,配制蝗虫微孢子虫水基悬浮剂。配方优化试验表明,单个润湿分散剂及组合

会议

2％蛇床子素微乳剂的研究

通过有机概念图选择了环己酮、正丁醇作为溶剂,以农乳700＃、TX-10、农乳A分别和农乳500＃进行复配,以增溶水量、冷贮稳定性等指标进行优化,得到了以正丁醇为溶剂,m(农乳A):m(农

基于DSP56F807的捷联惯性导航系统设计

针对捷联惯性导航系统性能指标与体积限制,设计了一种基于DSP56F807的捷联惯性导航系统.详细阐述了系统的设计思想、软硬件结构、捷联算法,给出了相应的系统原理图、软件流程

期刊

DIGITAL SIGNAL PROCESSOR(DSP)SINGLECHIPSTRAPDOWN INERTIAL NAVIGATION SYSTEM(SI

喷雾机械综合试验台的研制

本文介绍了喷雾机综合试验台的结构组成、工作原理和适用范围,并总结了试验台的特点,该试验台用计算机辅助控制对液泵、喷头各项性能指标进行综合测试,测试范围广泛,测试手段

会议

喷雾机械综合测试综合试验台性能指标适用范围结构组成工作原理辅助控制测试效率测试手段测试范围计算机液泵喷头

分布式负载均衡排队模型研究

目前负载均衡研究主要关注网络服务器的负载均衡调度策略,缺少负载均衡性能的理论研究和评价.该文利用排队论分析分布式系统的网络服务器负载均衡模型,并对该排队模型的平均

期刊

QUEUING THEORYLOAD BALANCING MODELDISTRIBUTED SYSTEMPERFORMANCE EVALUATION

嵌入式网络型门禁控制系统的研制

该文设计以ATmega128单片机为核心的网络型门禁控制系统,采用了小型嵌入式TCP/IP协议栈uIP0.9和嵌入式数据库技术,实现了网络技术和门禁系统的结合,具有较强的实用性和组网的

期刊

ACCESS CONTROL SYSTEMEMBEDDED DATABASEUIP0.9

慢滤系统在抑制土传病原菌方面的研究与应用

阐述了慢滤系统抑制营养液中土传病原菌的原理及装置特点,并对慢滤装置的抑菌效果进行了综合分析和评价。慢滤系统的消毒不是杀死病原菌,而是通过过滤、吸附等物理化学作用达

会议

系统土传病原菌物理化学作用综合分析装置特点抑菌效果消毒效果营养液原理吸附评价流速粒径过滤

基于粗糙集和遗传算法的文本分类研究

与本文相关的学术论文