大规模数据相关论文
缺失值插补(missing value imputation,MVI)作为数据挖掘领域的重要研究分支,旨在为机器学习算法的训练提供高质量的数据支持。不同......
近年来,空气污染问题已经开始变为世界关注的焦点,PM2.5颗粒物是大气污染物中的主要组成元素,有效地对PM2.5浓度进行统计建模分析,......
随着信息技术的发展,各领域的数据规模以惊人的速度扩张,这一方面给机器学习、数据挖掘等任务带来了更多的训练信息,另一方面增加......
数据产生价值,数据也是统计科学发展的动力.随着科技的迅猛发展,数据收集成本的降低导致海量数据以涌现形式出现,这些数据不仅规模......
作为数据挖掘的重要分支,尽管离群检测和聚类分析已被广泛研究多年,现仍处于蓬勃发展阶段。在离群检测和聚类分析任务中,特别是局......
随着计算和数据采集技术的发展,在各个应用领域中积累了大量复杂数据.这些数据中往往蕴含着直接或潜在的网络(图)结构.网络数据分析......
目前缺失数据的存在已经成为数据质量问题中无法避免的影响因素。各领域研究中经常遇到数据缺失问题,该问题不仅影响研究结果的精......
随着大数据时代的到来,数据的产生和使用日益增多,同时随着数据存储技术的进步,使得收集到的数据的规模越来越庞大,但是收集到的数......
随着通信和互联网技术的发展,网络规模逐渐扩大。诸如高清视频和图像等大数据量的多媒体业务正不断涌现,多播和广播技术得到了广泛......
支持向量机Support Vector Machine, SVM)是机器学习领域的有效工具,以其快捷的训练方法和良好的泛化性能受到人们的广泛关注,在函......
进化树(phylogenetic tree)是用于描述基因或者物种之间进化关系的树型拓扑结构,又称为系统发生树。进化树的构建是根据基因序列信......
最小最大模块化支持向量机(M3-SVM)是一种可以有效处理大规模数据分类问题的有监督集成学习算法。然而,对大规模数据进行标注是“......
无论是在图形学领域还是计算机辅助设计及各种模拟计算方法中,特征都是几何模型中最重要的部分,由于其具有特殊的几何性质,被广泛......
大规模数据存储面临着数据容量大、数据结构复杂、基础设施异构、失效常态化等问题。高效的、去中心化的元数据管理方案对大型分布......
近年来,随着数据的采集和存储技术的飞速发展,尤其是互联网的广泛应用,各行各业积累了大量的数据。为了从数据中挖掘出更多的有用......
聚类在数据挖掘、机器学习以及模式识别等领域有着非常广泛的应用,聚类分析是一种针对无标签数据的无监督学习方法。聚类集成的优......
随着信息化时代的快速发展以及互联网技术的不断提升,导致许多行业产生的数据样本呈指数级别增长,数据维度也在不断攀升。受“数据......
随着信息时代的飞速发展,各种数据呈现出爆炸式的增长态势。同时,数据形式也变得复杂且多样,给以机器学习为核心技术的数据挖掘带......
身为标准的技术宅,克里斯也有和《生活大爆炸》里的4位主角一样不堪回首的交友经历: 在号称可以用算法找到最佳匹配约会对象的OkC......
大数据这个名词,从陌生到新鲜到熟悉,发展到今天,已经成为一种客观存在,改变着整个世界的观念。大数据如同大爆炸一样强烈冲击着整个社......
提出一种适用于大规模互联网流量的实时广告流量检测系统,系统以目前最为流行的Adblock规则列表作为基本规则库,将Hash Table快速......
我国高校招生制度的主要特征是以统一的考试成绩作为录取标准,根据学生的志愿填报来决定学生和学校之间的匹配。我国高校招生制度不......
基于我国已经进入了大数据时代,企业在发展过程中必须要及时构建网络工作平台,完成对数据的收集和整理工作,为项目决策提供参考意......
数据挖掘作为数据库中知识发现过程的一个基本步骤,它是从丰富的,不完整的,模糊的和随机的数据中提取有用的信息和知识的过程。而聚类......
随着三维地形可视化中数字地形和影像数据规模的不断增大,解决由于地形数据构成的复杂地形表面模型与计算机图形硬件有限的绘制能力......
核函数是影响支持向量机性能的关键,但核函数的选择至今仍缺少系统的理论依据.大规模数据普遍存在于实际问题当中,基于传统核的支持......
层次聚类(Hierarchical Clustering)就是通过对数据集按照某种方法进行层次分解。该聚类方法可以设定聚类的个数,并得到了各个研究......
对大规模科学数据的分析与理解最终要依赖于可视化手段来完成,数据的存储与组织方式是影响可视化效率的关键因素,特别是集成大量可......
本文提出了一种基于自组织特征映射神经网络 (SOM)和支撑矢量机 (SVM)相结合的复杂模式的大规模数据的分类方法 .该方法首先利用自......
据印度《经济时报》(The Economic Times)10月20日报道,多间印度银行要求用户更改借记卡密码,影响范围涉及多达320万张借记卡。据悉,......
研究城市场景数据传输优化问题,为了解决大规模三维城市场景模型数据量大,受网络带宽限制,传输速度无法满足用户实时观看及漫游的......
为了确保安全用电,供电企业需要对相关线路、设备进行停电检修。但如何合理安排不同区域、设备的停电时间,在保证停电检修任务的同......
线性支持向量机是处理高维稀疏数据的有效机器学习方法之一,本文对线性支持向量机与传统支持向量机在解决大规模数据时的训练时间和......
在分析模式匹配算法的基础上,提出了一种改进的模式匹配算法,并将该算法应用于大规模数据分析软件设计之中。在数据分析的初始阶段,通......
针对支持向量机面临的大规模数据分类问题,提出基于分类超平面的非线性集成学习机NALM。该方法借鉴管理学中协同管理的思想,将大规......
现有核聚类算法需要学习完整的核矩阵,计算效率较低,仅适用于小规模数据,对此提出了基于图谱理论的核函数分类算法。首先,基于图谱理论......
针对传统谱聚类算法在聚类过程中所出现的高计算复杂度、噪声敏感,以及聚类簇形态偏斜等问题,结合当前大规模数据聚类的特点与需求......
通过Webmining技术对Web日志进行分析研究,可以发现有意义的用户访问模式及潜在用户群的数据模型,便于商家制定电子商务策略。给出......
本文提出并实现了一种Hadoop与虚拟化技术相结合的模型.该模型将多核计算机虚拟成多节点集群,最大限度地利用计算资源.在实验测试......
用户姓名、身份证号码、银行卡卡号、账号密码……从上月的携程用户支付信息泄露,到近日的本年度最严重的全球互联网安全协议OpenS......
新形势下,科学发展日新月异,信息技术水平显著提高,同时在各行各业中得到了广泛运用。医院这种主体机构具有一定的特殊性,为了保证......
为解决搜索引擎ASPSeek在大规模数据下检索效率低下、占用空间大以及不利于更新等问题,提出了一种分块式存储的倒排索引组织技术,......
R软件具有强大的统计分析功能,Hadoop平台能够存储和处理TB级别以上的大规模数据,将R与Hadoop相结合,在目前阶段是一种比较好的处......
针对当前数据库系统建设的集成度低,存储开销大等缺陷,提出基于类别属性模板匹配聚类的数据库系统,首先采集相关数据,对存储结构进......
摘要:随着信息化技术的快速发展,特别是云计算与物联网技术的应用,面对未来海量的存储数据,传统的SAN或NAS在容量和性能的扩展上存在瓶......
孤立点检测是一项有价值的、重要的知识发现任务.在对大规模数据集中的孤立点数据进行检测时,样本数据集的选择技术至关重要.本文......