论文部分内容阅读
随着物联网、社交网络与电子商务的迅速发展,大数据时代已经到来。尽管大数据给工业、教育和医疗等众多领域带来了巨大的潜力,然而从大数据中获取有价值的知识却是一件非常艰巨的任务。学习大数据的特征并挖掘隐藏在大数据中的信息既需要先进的技术,也需要多学科的交叉合作。特征学习是大数据分析与挖掘的关键步骤,然而大数据的海量性(volume)、异构性(variety)和实时性(velocity)特点为数据特征学习方法提出了严峻的挑战。本文围绕国家自然科学基金“面向三旧改造的多源异构大数据管理分析与挖掘研究”(编号:U1301253)展开相关研究,针对大数据的海量性、异构性和实时性三个特点,设计面向大数据特征学习的深度计算模型,主要研究工作包括以下几个方面:(1)基于张量数据表示的基本深度计算模型。针对现有的深度学习模型难以有效学习异构数据特征的问题,提出基于张量数据表示的深度计算模型。将深度学习模型从向量空间扩展到张量空间,设计基本深度计算模型,学习异构数据的特征。设计面向张量空间的高阶反向传播算法,训练深度计算模型的参数。设计基于张量距离的重构误差函数,捕捉大数据在张量空间中的分布特征。理论分析表明深度计算模型是深度学习模型在张量空间的扩展与泛化。实验结果表明深度计算模型能够有效学习异构数据的多层特征。(2)支持增量式更新的深度计算模型。针对基本深度计算模型无法动态调整模型参数与结构,难以实时学习动态数据特征的问题,提出增量式深度计算模型。引入函数一阶近似思想,设计基于参数更新的增量式高阶自动编码模型,通过更新参数实现深度计算模型的更新;通过不断增加隐藏层神经元的方法,设计结构更新的增量式高阶自动编码模型,快速适应新增数据的特征变化,实时学习动态数据的特征。理论分析表明增量式深度计算模型满足增量式学习增量性、保持性与适应性三条性质。实验结果表明增量式深度计算模型在保持对新增数据分类精度的同时,能够有效提高动态数据特征学习的效率。(3)支持隐私保护的云端安全深度计算模型。针对深度计算模型在云端执行过程中容易泄露数据隐私的问题,提出支持隐私保护的云端安全深度计算模型,采用全同态加密方案对数据进行加密,设计云端安全高阶反向传播算法,提升大数据特征学习的效率,同时保证数据在云计算环境下的隐私和安全。实验结果表明云端安全深度计算模型能够充分利用云计算强大的运算能力提高模型训练效率,同时能够保护大数据在云端的敏感信息。(4)基于深度计算模型的不完整数据可能性聚类算法。针对传统的可能性聚类算法难以有效的对不完整大数据进行聚类的问题,提出基于深度计算模型的可能性聚类算法,设计高阶自动编码机的改进模型,学习各类不完整大数据的特征;研究张量的外积运算,将各种数据的特征进行关联,形成异构数据之间的关联表示;设计高阶可能性聚类算法,对不完整大数据进行聚类。实验结果表明提出的算法不但能够对优质大数据进行聚类,同时能够学习不完整大数据的特征,对不完整大数据进行有效聚类。