一种改进的非平衡数据集支持向量机分类算法

被引量 : 0次 | 上传用户:cx8105
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类问题是数据挖掘领域的重研究的重要内容之一,现有的一些分类方法已经相对成熟,并且对平衡数据集的分类已经取得了良好的效果。但实际生活中数据集往往不平衡,即数据集中某类的样本数目远大于其他类的样本数目。传统分类算法解决非平衡数据集分类问题的能力有限,对不平衡数据集分类问题的研究需要寻求新的判别方法和分类准则。本论文针对传统分类算法的不足,从算法的改进和增强算法的实用性两个方向展开系统深入的研究。在数据层面,在已有分类算法的基础上对不平衡数据集的重构做出两项关键性的改进;在算法层面,将重构的数据集和基于支持向量机的分类方法有机结合,提出基于壳向量和SMOIS算法的支持向量分类算法SHS(SVM classification algorithm for imbalanced datasets based on SMOIS and convex hull)。论文的主要工作和结论如下:(1)改进SMOIS算法通过引用壳向量机制和对少数类别进行象空间复制来调节数据集中少数类别样本和多数类别样本的比例,降低数据集的不平衡度。(2)SHS算法实例验证选用中科院词法分析系统ICTCLAS提供的语料库,总共751篇文档,类别涉及环境、计算机、医疗。实验表明,比较传统分类算法,SHS算法减少了训练样本的规模,提高了大规模文本数据集的分类速度,尤其对不平衡文本数据集,算法优势更为明显。
其他文献
<正> 贵刊在2006年第三期刊登了一篇《导体接地后应残留什么电荷》的文章,笔者读后,感觉这篇文章所提的方法非常好,这类习题平时的测验中也确实经常遇到。笔者在教学的生涯中
期刊
2015年北京市高考物理试卷形成一些特点,但仍有进一步优化的空间;高考完毕,如何做好日常的教学,文中就试题特点,优化空间,教学建议做了一些阐述。
<正>病例介绍患者,男,73岁。因"咳嗽、咳痰、胸闷、气短7 d,胃造瘘置管不慎脱落"于2015年8月14日收入我院消化内科住院治疗。2011年患者于外院行喉癌次全切除手术,术后接受放
本文以河南安阳殷墟大司空和刘家庄北地两处遗址的晚商时期中小墓出土的人类遗骸为研究对象。通过分析其性别组成、年龄结构、骨骼发育程度、骨骼病理创伤、居民的行为习惯、
本文介绍了国内学术英语写作教学的概况,探讨了当前中国理工科院校学术英语写作课程的现状及存在的突出问题,分析并找出了提高大学生学术英语论文写作能力的办法和途径。
分别制备了聚丙烯(PP)与氢氧化镁[Mg(OH)2]、高岭土(KL)、聚磷酸铵(APP)之间的一元配比复合材料和二元配比复合材料,并将最优的二元配比复合材料添加一定量的相容剂聚丙烯接
妊娠合并急性胰腺炎较为罕见,并发症多、病死率高,严重威胁母婴生命健康,胆道疾病和高脂血症是其主要病因,临床表现不典型,血淀粉酶和脂肪酶升高及影像学检查异常等具有重要
<正> 在党的十五大修改的新党章上,正式确定邓小平理论为我党的行动指南,这又为我党树立起了一面新的旗帜。因此,组织党员学好新党章,是摆在各级党组织面前的一项
本论文研究穿戴型下肢外骨骼机器人机构。所研究的外骨骼是一种可以穿戴于人体的机械装置。这种外骨骼依靠人的运动信息来控制机器人,通过机器人来完成仅靠人的自身能力无法