大规模数据集相关论文
针对基于密度的噪声应用空间聚类算法(density based spatial clustering of applications with noise,DBSCAN)计算复杂度较高以及无......
通过协同求解多个概念漂移问题并充分挖掘相关概念漂移问题中蕴含的有效信息,共享矢量链支持向量机(Shared Vector Chain Supporte......
经典的径向基函数神经网络学习算法因其能逼近任意连续函数,因而应用广泛.但在实际应用中,当训练集有较大数据容量时,需要较高的计......
近年来,推荐服务已经成为亚马逊、Netflix,Flicker,Delicious等一类用户虚拟生活平台上的一项基本服务。在这些虚拟生活平台上,用户可......
搜索引擎的出现帮助用户在纷繁杂乱的互联网信息中寻找相关的信息,因此检索结果的排序是至关重要的。作为新兴信息检索技术的排序学......
随着大数据时代的来临以及数据集容量的迅速增长,基于并行/分布式计算的频繁模式挖掘相比受内存和节点限制的传统技术在处理海量数......
学位
近年来,随着数据收集与存储技术的提高,人们收集到的数据量呈指数速度增长,传统的离群点检测方法在处理大规模数据集时已开始表现出极......
针对目前眼动跟踪方法难以适用于智能手机、平板电脑等便携式设备的问题,提出一种基于大规模数据集的眼动跟踪方法。首先,通过众包......
谱聚类算法以谱图理论为基础,可以作为一种图论的分割方法,由于其强大的数学理论基础和广泛适用性,是目前国际上模式识别等领域的......
相关向量机(Relevance Vector Machine,RVM)是一种基于稀疏贝叶斯理论的机器学习算法。该算法十分擅长处理小规模数据问题,由于其......
离群点检测在数据处理中具有重要研究意义,其检测方法大致可以分为基于统计、基于距离、基于密度和基于聚类的方法。为了及时掌握......
传统机器学习的方法是以假设样本集趋于无限为前提的,但实际问题中样本集都是有限的。Vapnik等人针对小样本提出了统计学习理论(St......
聚类分析是无监督模式分类的一个重要组成部分,也成为现代数据分析中越来越重要的一个工具。初始条件、相似性准则和聚类准则的不同......
随着信息技术的发展,各行各业都在应用这一技术,这样一来就使很多政府部门与企业等出现了很多数据,但以往的查询方法和统计技术只......
随着现实生活中数据集规模的不断增大,设计有效的分类算法势在必行。支持向量机(Support vector machine,SVM)是一种公认的性能较......
在研究柔性作业车间调度问题(FJSP)中为模拟实际大型生产车间的柔性作业车间调度情景,设计了基于传统基准实例的大规模FJSP数据集......
LOF(Local Outlier Factor)算法是常用的离群点检测算法,但是该算法在面对大规模数据集时往往需要高昂的时空开销,基于固定网格的离......
针对自然界中植物数据规模大且分布不平衡导致的识别困难的问题,提出一种基于显著特征和全局特征融合的植物识别方法。通过多层特......
提出了一种基于多示例的Boosting级联算法,通过使用多示例、大的训练集以及对应的闽值调整方法,提高了人脸检测速度和精度。实验证明......
数据挖掘算法中的支持向量机算法,在通过若干学者的改进研究后,有一种改进算法即序列最小化算法主要应用于小样本数据集的分类,且......
针对支持向量分类机对大规模数据集训练速度慢的瓶颈,提出一种聚簇消减数据集方法。首先建立样本中心距离函数,计算聚簇集的比例半径......
针对分类属性数据,基于信息熵,提出一种度量特征重要程度的定义,结合聚类分析,提出一种无指导的特征选择方法.该方法时间复杂度与......
首先,基于每次迭代计算距离当前球心最远的两个点,提出一种求解n维空间中m个点的最小闭包球问题的(1+ε)-近似算法。对于ε∈(0,1),建立......
随着互联网的高速发展,新型信息发布方式不断涌现,由此所产生的数据正以前所未有的速度“爆炸式”增长。如何处理和分析庞大的原始......
针对支撑向量机(Support vector machine,SVM)在大规模数据的问题,提出了一种基于模糊c-均值聚类样本选择策略的SVC(SVM for classifi......
随着科学技术的发展和互联网的普及,网络给人们带来便利的同时,也给抄袭剽窃提供了机会,现在抄袭检测已经成为一个重要的研究课题......
针对抄袭检测系统的文本对齐模块无法处理大规模数据的问题,提出基于图论的片断合并算法,通过寻找图的连通分支实现了片段合并的优......
针对集成学习方法在处理大规模数据集时具有计算复杂度高、基分类器数目多、分类精度不理想的问题,提出一种基于频繁模式的选择性集......
针对计算最小体积闭包椭球(MVEE)的积极集算法中原初始化策略耗时较多的问题,先给出一个基于样本协方差矩阵构造的新初始化策略,然后......
提出一种大规模数据集求解核主成分的计算方法.首先使用Gram矩阵生成一个Gram-power阵,根据线性代数的理论可知,新形成的矩阵和原先的......
对支持向量分类机中的一些基本方法作出详细地介绍,并进一步研究了方法的求解与改进。并通过对标准支持向量机的改造考虑了一种改进......
支持向量机(SVM)是最为流行的分类工具,但处理大规模的数据集时,需要大量的内存资源和训练时间,通常在大集群并行环境下才能实现。提出......
研究n维空间中m个点的最小闭包球(MEB)问题。通过结合确定并删除内部点的技术到序列最小最优化(SMO)方法中,提出一种近似求解MEB问题的......
提出了一种面向大规模数据集的单类支持向量机(OCSVM)方法.该方法基于k近邻思想得到表征数据集合分布特征的集合内点,并依此生成集合......
基于labels集开展的大规模数据集聚类别,采用SSLOK算法并结合labels集调节聚类过程,这样以来,在有限的主存空间内调换半监督聚类,确保......
先建立求解加权最小闭包球(WMEB)问题的序列最小最优化(SMO)算法的线性收敛性,再结合列生成算法的思想,即每次迭代将与当前球心加......
对于频繁项集、聚类、离群点检测等大数据处理,过去简单的数据统计等数据处理方式已经不能适应当前大数据处理的要求。所以,应积极......
简单随机抽样是在分析处理大规模数据集时最常用的数据约简方法,但该方法在处理内部分布不均匀的数据集时容易造成类的丢失。基于......
首先证明了快速核密度估计(Fast kernel density estimate,FKDE)定理:基于抽样子集的高斯核密度估计(KDE)与原数据集的KDE间的误差与抽......
1引语目前,我国大多数高校本着开放、共享、高效、便捷的思路,不断加大了实验室建设力度。实验室不仅仅在教与学实践环节中发挥了......
针对采用马氏距离进行直推式学习的一类分类椭球学习机,在训练样本点较少而待分类样本点较多的情况中出现的处理较大规模数据集时......
针对SVM分类过程中,处理大规模训练样本集遇到的因样本维度高、消耗大量内存导致分类效率低下的问题,提出基于网格环境的计算策略......
对支持向量分类机中大规模数据集训练速度慢的瓶颈提出一种预处理方法,通过设置邻域特征值,比较样本点特征信息,建立样本集删除矩......
针对大规模数据的分类准确率低且效率下降的问题,提出一种结合X-means聚类的自适应随机子空间组合分类算法。首先使用X-means聚类......