基于粗糙集和支持向量机的文本分类方法研究

被引量 : 0次 | 上传用户:sjzafei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文首先对文本分类的发展现状及存在问题进行了系统性阐述,按文本分类的流程对文本分类相关技术进行了介绍和探讨,重点分析和研究了文本表示、特征选择技术以及文本分类算法等文本分类关键技术。本文较为系统地总结和研究了粗糙集和支持向量机的基本原理。并分别就属性约简算法、支持向量机训练和分类算法等问题加以讨论。为了更好地提高文本分类准确率,降低支持向量机分类算法的运行时间,针对文本经过预处理和文本表示后高维稀疏性的特点,本文在研究和分析了一些粗糙集属性约简算法及其存在的问题的基础上,提出了一种改进的基于属性重要度函数的属性约简算法,并将该算法和相关已有算法进行了对比分析,从理论上证明了该改进算法的有效性,算法的时间复杂性优于同类算法。结合粗糙集和支持向量机的各自优点,提出了基于粗糙集与支持向量机相结合的文本分类方法,在对文本进行特征选择后,利用改进后的粗糙集属性约简算法,对特征选择后的特征向量空间进行约简,进一步降低特征向量空间的维数,减少冗余属性对分类效果的影响,缩短支持向量机的训练时间,并据此设计和实现了一个结合粗糙集理论和支持向量机技术的文本分类实验系统,对比了降维前后分类效果,探讨了惩罚因子C的选择对分类结果的影响。实验结果表明,在文本特征向量空间的维数大于2500维情况下,采用粗糙集和支持向量机相结合的文本分类方法取得了较好的分类效果。从而从实践上证明了本文提出的改进约简算法在高维情况下是有效的。最后,对本文取得的成果以及不足进行了总结,并对下一步的研究工作进行了展望。
其他文献
机械管理是施工的基本生产要素之一,对工程的成本与安全起着至关重要的作用。笔者结合多年的工作经验,分析了施工企业机械设备管理维护的驱动因素,并提出了提高机械设备管理
随着我国房建工程建设数量的不断增加,对于房建工程施工质量提出了更高的要求,尤其是要求施工单位加强房建结构混凝土裂缝的控制,全面提升施工质量。后浇带施工技术的应用很
随着建筑工程市场的开拓,建设工程成本控制与管理在工程项目管理中的作用也愈发重要。建筑工程的成本管理贯穿于整个工程项目的全过程,有效的管理措施可以确保工程的施工质量
随着大数据时代的到来,高职院校大学生在选择价值观时面临严峻挑战;而大数据时代所带来的慕课,互联网+教育,自媒体教育等在教育领域的巨变也给高职院校思政教育带来挑战和机
俄罗斯文学作品中的“小人物”是指那些生活贫困,被上层社会的有权人欺压和侮辱,毫无人格尊严的身处社会最底层的人。在当时残酷的社会生活中,没有人关注他们的悲惨命运,他们
新疆城乡结合部流动人口服务管理是关系社会稳定和长治久安的重大议题。从新疆城乡结合部流动人口服务管理需要破解的难题入手,以实现系统管理、动态管理、人本管理、市场管
霍布斯是一位处于从传统到现代转型时期的政治思想家,他吸收了近代科学和哲学的方法,并将其运用到政治哲学研究中,完成了具有近代意义的完整的政治哲学阐述,被公认为是近代政
"瑜伽"来自古老的印度,是梵文"Yoga"的译音,来自词根"尤之(yuj)",意思是"连接、使有密切的关系联系",后引申为统一"、"归一",特别是"拓展灵性的方法"等含义。瑜伽的文字记载最早出现在印度古
2003年,中国爆发了“非典”疫情,这一灾难让国人认识到了危机传播的重要性,更让国人看见自身在这方面的不足。随着人们的日常生活被越来越多的新媒体围绕,危机传播也遇到了新
泥料的可塑性是最重要的工艺参数。分析了几种常用粘土的矿物组成与可塑性之间的关系以胶体理论为依据,设定了粘土可塑性指标的不同测定方法,并与实际泥料的可塑性进行拟合。