基于样本选择的复杂分类问题研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:cai67716029
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术和互联网技术迅速发展,电子商务、工业制造、生物医疗等各领域均进入“大数据时代”,获取的数据规模日益增大,更新速度急剧加快,利用数据挖掘算法构建分类模型时面临数据量大、训练速度慢、运算和存储要求提高等问题。样本选择通过识别训练集中冗余样本和噪声样本,仅保留支持分类器分类效果的有效样本,在缩减数据规模的同时提高分类模型性能,因此已成为目前约减数据规模的重要方法之一,而样本选择过程也成为针对大数据样本分类建模的必要的预处理过程。  本文针对现有样本选择算法中存在的不能有效地选择凹面部分的样本点等问题,基于支持向量机(Support Vector Machine, SVM)分类模型展开样本选择算法研究。论文首先综述了样本选择算法研究现状及其分类。其次,结合最近异类样本概念,提出了基于最近异类的 NES样本选择算法,确定每个样本点的最近异类样本,并将具有相同最近异类的样本划分到同一子集中,从而将原始训练集划分成若干个相互独立的样本子集,并行地在各样本子集中进行样本选择操作,有效提高了样本选择效率,主要选择位于分类决策面附近的样本点,提高了样本压缩率,实验结果表明该算法能够选择出确实有效的SVM支持向量候选集。然后,在基于最近异类子集划分的基础上进一步提出θ-Net概念,设计了基于θ-Net的 NENet样本选择算法,改进子集中的样本选择策略,通过确定每个子集中的θ-Net选择位于类分类决策面附近的SVM支持向量候选集,该算法不仅保留了同类数据的凸面样本点,同时保留了位于凹面的样本点,保证了算法在类边界复杂的情况下能够有效地选择样本构建分类模型,实验结果表明该算法具有较优的数据压缩率,能利用较小的样本规模获得较高的分类准确率。
其他文献
随着城市的加速发展,交通拥堵变成了一个十分严峻的问题,严重阻碍了城市的进一步发展。为了阻止这一问题的加剧,以最大化交通通行能力为目的的智能交通系统逐渐发展起来。智
随着市场经济的深入发展,市场竞争越演越烈,以客户需求为中心,实施CRM,加强与客户的联系,有效挖掘和管理客户资源,提高客户满意度、忠诚度及客户让渡价值,才能获得竞争优势,
创新扩散,是指新产品、新技术、新思想、新方法以及其他的社会现象在社会经济系统中的传播过程,一直以来都是管理学、营销学等社会科学研究的重要命题之一。创新扩散的本质是
廉租房是社会住房供给体系一个重要组成部分,是解决低收入群体住房的主要措施。如何界定廉租房保障对象是实施廉租房制度的关键所在,本文针对廉租房保障对象界定问题进行研究。
针对星级饭店员工流失率一直较高的现状,本文首先对星级饭店员工流失的现实原因进行了分析,接着在文献研究比较的基础上分析了职业生涯管理影响饭店员工流失的作用机理,从而
开发区作为城镇发展和土地利用的重点区域,已经成为产业升级、区域发展的推动器和科技创新基地,预计将会成为全国经济、区域经济、城市经济的重要支柱。但在开发区土地利用中,重
近几年以来,随着现代科学技术的飞速发展,数据量呈现一种爆炸式增长。而伴随数据量增长的同时,数据中包含的不相关和冗余信息也增多,给已有的机器学习算法带来了严峻的挑战。
随着网络的普及,因特网在信息传播、舆论形成及强化的过程中扮演着越来越重要的角色,危机信息传播的环境发生了巨大的变换,网络舆情所呈现出的主体多元性、影响广泛性、类别多样
近几年来,世界经济技术的发展步伐不断加快,市场对产品的研发周期和生命周期的要求越来越高,顾客对产品的需求日益多元化。知识经济时代随着这种发展趋势而到来,在这种经济环境下,知识的创新已经成为了企业提高核心竞争力的重要途径。在这一关键的时期,企业如何利用外部资源在研发环节与其他机构合作,在研发的环节当中对知识创新科学的认识和管理,缩短研发周期,降低研发成本,是摆在企业和研究者面前的重要课题。鉴于此,本