大数据背景下若干数据挖掘方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：YOYO654321

【摘要】

：

信息技术的迅猛发展正在引发一场以“大数据”为背景的数据革命。其中最核心问题是如何从数据中发现识别新颖的、有效的并能够指导决策的且易于理解的模式及规律。大数据被普

【作者】

：

赵熙

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2014年期

【关键词】

：

信息检索数据挖掘属性分析程序语言

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

信息技术的迅猛发展正在引发一场以“大数据”为背景的数据革命。其中最核心问题是如何从数据中发现识别新颖的、有效的并能够指导决策的且易于理解的模式及规律。大数据被普遍接受和认同的4V特征包括，数据体量大(Volume)、源头及结构多(Variety)、产生速度快(Velocity)和价值总量高但价值密度低(Value)。本文在大数据背景下，对数据挖掘中的属性选择、分类和回归等问题进行了研究和探索。　　本文总结整理了大数据的发展现状、特点及趋势。讨论了大数据背景下的诸多研究问题以及这些问题同数据挖掘及分析方法之间的关系。其次，针对大数据价值总量巨大但价值密度低的特点，研究了利用属性选择方法从数量众多的属性中选取有代表性、关键的属性来代表全体，进而提高数据的价值密度。基于这一想法，本文设计并提出了一种基于属性聚类的属性选择方法MICAP。针对大数据中往往伴随着大量数据缺失的特点，通过每次只采用两个属性的数据进行相似度计算，从一定程度上减小了数据缺失对算法计算带来的影响。同时，很大程度上提高了算法的并行性，使其能够应对数据量巨大的情况。通过采用实际应用中的数据进行数据实验对MICAP方法进行了分析和验证。再次，在多目标线性规划(MCLP)模型的基础上，利用最优化理论与方法，对数据挖掘中的分类和回归问题分别进行了研究。通过改进原始MCLP模型使之一定存在解，提出了一个新的二分类模型KSRMCLP。并在此模型基础上通过引入核函数，使模型具备由线性划分到非线性划分的能力。同时，证明了本文所提出的KSRMCLP模型在Hilbert空间的解可以通过其对应的对偶问题的解经变换得到。在人工模拟数据上验证了该模型具备了非线性划分能力，其它来自现实世界的数据实验显示出模型在实践中具备很好的应用效果。进一步的，在所提出的二分类方法基础上，利用最优化理论方法将回归问题转化为分类问题，提出了一个新的函数回归方法。该方法同样基于多目标线性规划(MCLP)框架并能一定存在解。之后采用人工和UCI实际应用数据对归回方法进行了分析和验证。最后，在大数据背景下，相比于大量的无标签数据而言有标签数据的比例很小。针对这一问题本文在半监督学习的场景下，基于最优化理论和流形学习理论提出了一个新的半监督分类方法Lap-NPSVM。该方法最终将半监督分类问题转化为一个形式简洁且只有上下界约束的凸二次规划问题。该模型不仅一定存在解，同时可以采用投影梯度共轭梯度(GPCG)等专门的优化求解方法进行求解。该优化模型中无需进行矩阵的逆运算，这克服了在大数据量实际应用中的障碍。之后，结合不同人工数据和实际应用数据对本文提出方法的正确性和有效性进行分析和验证。

其他文献

运动捕获单元的信息融合方法和评估

随着计算机技术、微电子技术等现代化技术的快速发展，人们对于运动捕获技术的需求日渐增长，运动捕获技术在医疗领域、工业领域、传媒领域、虚拟现实领域等各个领域的应用日益广

学位

运动捕获单元传感器数据融合姿态估计加速度干扰卡尔曼滤波器

J2EE核心设计模式的研究与应用

该文旨在阐述由Sun Java Center(SJC)咨询机构提出的15种J2EE核心设计模式,这些模式涵盖了一个完整的Web应用的表示层,业务层和数据层.对于每一个模式,作者都给以了详细的分

学位

J2EE设计模式多层结构核心设计

球体空间数据组织和管理方法研究

目前人类通过各种空间探测活动获得了大量的空间科学数据。要从大量数据中获取有价值的信息，提高科研效率，需要采用相应的方法对空间数据加以有效管理和组织。空间数据具有参考

学位

空间数据球体剖分网格检索多分辨率存储管理

光电图像序列中机动小目标跟踪与检测算法研究

目标跟踪问题实际上是目标状态的滤波问题，即根据传感器已获得的目标量测数据对所关心的目标状态进行精确的估计。对低信噪比光电图像序列中机动小目标的检测与跟踪问题而言，由

学位

光电图像序列机动运动小目标跟踪粒子滤波低信噪比蒙特卡罗估计

Job-Shop智能调度和软件项目团队规划研究

作为智能调度中最难解问题之一的Job-Shop调度问题,其模型具有一般通用性和巨大的现实意义,人们在Job-Shop问题上已经提出很多优秀的算法诸如分支界定、优先级分派规则(Prior

学位

智能调度局部搜索约束可满足启发式规划优先级分派规则阈值TeamPlanning团队

XML与数据库的信息交换技术

Internet的飞速发展，通过网络进行信息交流和共享越来越多了。XML是一种可扩展标记语言，由于它能有效、简便地表达信息和文档，在基于网络的商业应用中得到了广泛的应用，其数量急

学位

数据库XML数据库中间件映射模型XML查询语言

校园网网络教室多媒体信息传输技术的研究

网络教学被认为是构筑继续教育、终身教育和素质教育的重要手段，是“面向21世纪教育振兴行动计划”的重要举措，因而倍受国内外关注。其形式也多种多样，其中网络教室以其实时性、

学位

IP多播图像压缩DirectX基于语义的图形压缩

GW-MIS系统规划、设计与实现

该文针对格林威公司的具体情况,根据公司办事处较多、销售环节还存在的一些漏洞、以及管理上的一些不顺畅问题,尤其是公司合同签署、销售管理还手工操作,我们从销售管理及合

学位

软件工程MIS计算机应用企业信息化销售管理合同管理

面向空间数据库引擎的空间索引系统

关系数据库能够支持空间数据的存储，却无法支持对其高效的访问，这是因为空间数据的多维特性与关系数据库中的一般索引不相适应。一般索引只适合对一维数据进行索引，因为其索引项

学位

空间索引空间查询R树BucketFile

基于反射机制的中间件技术研究

中间件技术广泛运用使得分布式应用系统开发得到进一步发展。然而，如今不断涌现的新的应用领域对中间件技术提出了新的要求。传统的中间件已无法适应这样的多样性。细究其

学位

反射中间件元对象协议数据集成

大数据背景下若干数据挖掘方法研究

与本文相关的学术论文