基于概率密度估计的增量支持向量机算法

来源 :第十三届中国Rough集与软计算学术会议、第七届中国Web智能学术研讨会、第七届中国粒计算学术研讨会联合学术会议 | 被引量 : 0次 | 上传用户:oliver777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  增量支持向量机(Incremental Support Vector Machine,ISVM)模型通过每次加入一个或者一批样本进行学习,将大规模问题分解成一系列子问题,以提高支持向量机(Support Vector Machine,SVM)处理大规模数据的学习效率,但传统ISVM (Traditional ISVM,TISVM)模型中增量样本的选择方法不当可能降低其效率和泛化能力。针对ISVM中增量样本的选择问题,提出了一种基于概率密度分布的ISVM算法,称为PISVM,该方法通过概率密度分布选择含有较多重要分类信息(有可能成为支持向量)的增量样本进行训练,使得分类器能够以最快的速度收敛到最优。在标准数据集UCI上的实验结果表明PISVM模型可以在保持其泛化能力的同时进一步提高学习效率。
其他文献
大数据给现有的数据分析与挖掘技术带来前所未有的挑战,研究高效的、可以揭示复杂数据的隐含结构的学习方法已成为机器学习和数据挖掘领域所关心的主要问题之一。本报告针对大数据的高效特征选择和聚类问题,介绍了本人课题组的一些最新研究进展。首先,从样本表征整体、样本批量增加角度建立了高效特征选择算法;其次,针对符号型数据、混合型数据和非平衡数据发展了新的聚类算法;最后,对大数据处理技术进行了展望。
会议
提出了基于拟阵的粗糙集,并通过拟阵闭包算子给出了相应的拟阵上近似算子和下近似算子,同时研究了上下近似的性质。进一步,利用拟阵与二元关系的相互转换,研究了基于拟阵粗糙集与基于关系粗糙集之间的关系。
在多粒度时间序列研究中不确定性问题是时间序列数据挖掘研究中的重要课题。时间序列时序粒度本身的不稳定是一种广泛存在现象,也是时间序列数据挖掘困难的一个重要原因之一。对于这个问题,首先基于一个不确定性多粒度时间序列的基础模型对时间粒度不确定性进行了计论,并且提出了稳定时序粒度的基本策略。由于聚类分析在时间序列数据挖掘中的基础价值,一个不确定性粒度时间序列相似性算法框架被提出来解决这类数据的聚类问题。最
粒度支持向量机(Granular support vector machine,GSVM)通过选取粒的代表点构成精简训练集以提高支持向量机(Support vector machine,SVM)的学习效率,然而选取个别代表点有可能丢失部分重要分类信息,导致模型泛化能力不高。针对这一问题,提出基于粒分布的GSVM(Distribution based GSVM,DGSVM)加速训练方法,该方法依照粒
科学与工程实践中一大类问题都可以归结为优化问题,粒子群优化(PSO)算法作为一种新型的群智能优化算法,算法简单易实现,可调参数少,已得到广泛的研究与应用。本报告介绍了PSO算法的基本原理和更新机制,论述了离散PSO算法的研究进展和应用情况,介绍了几种离散化策略的建立、更新方式、计算模式和特点。最后介绍我们在离散PSO算法的构建及其应用情况,分享相关的研究成果和体会,并讨论了离散PSO的发展趋势和进
会议
在不完备信息系统中,可变精度分类关系是限制容差关系的改进形式,但其并未考虑数据集中属性的测试代价。为解决这一问题,提出了基于测试代价敏感的可变精度分类粗糙集模型,并将其与基于容差关系、非对称相似关系的粗糙集模型以及传统可变精度分类粗糙集模型进行了对比分析。进一步地,通过分析利用传统启发式算法求解约简未考虑测试代价以及利用回溯算法求解约简的时间消耗问题,提出一种新的属性重要度测量,并在此基础上设计了
智能信息处理是人工智能研究的主要内容之一,而不确定信息的表示与分析是智能信息处理的重点与难点。粒计算(Granular Computing)是近年来计算机领域出现的一种以模拟人类处理信息机制的计算理论与方法。该理论认为信息或知识是有粒度的,信息或知识的不确定性是由于粒度太粗产生的,它对不确定性给出了新的解释。本报告将介绍一种具体的粒计算模型——粗糙集理论,以及知识约简中不确定性的分析。目前,大数据
会议
最小测试代价属性约简问题是数据挖掘和机器学习中的重要问题。最近,一个信息增益算法被设计用于解决该问题,但该算法的效果并不理想。提出一个模拟退火算法解决最小测试代价属性约简问题。算法首先随机产生一批属性子集作为原子解。然后每个原子解通过简单的方法产生其邻居解。再按照Metropolis准则保留原始原子解或者用其邻居解来替换。最后选出这批原子解中测试代价最小的作为结果输出。该算法在四个UCI数据集上运
为了将群体智能技术应用于半结构化的藏文Web文本聚类中,提出了基于群体智能的半结构化藏文Web文本聚类算法SCAST (A Semi-structured Tibetan Text Clustering Algorithm Based on Swarm Intelligence),充分考虑群体智能技术对藏文文本聚类准确性和时间效率的影响.SCAST算法包含三个主要步骤:(1)运用向量空间模型表示藏
由于路径本身的动态性、异构性、脆弱性和不确定性,如何在大型加权网络中找到可信路径成为近年来最佳路径查找算法的研究热点。借鉴贝叶斯认知模型和商空间理论,通过对大型加权网络中节点信用度进行评估,提出了一种动态商拓扑模型并应用于最佳路径查找。仿真结果证实,提出的动态商拓扑模型能够在较小的时间花费代价下有效地提高算法可信方面的需求。