大数据相关关系挖掘的若干关键问题研究

来源 :电子科技大学 | 被引量 : 6次 | 上传用户:jmdwj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息系统计算能力和存储能力的提升,大数据正源源不断地产生,各行各业收集了琳琅满目的大数据,这些数据中蕴藏着巨大的价值,已经引起全球各界的广泛关注。我国疆域辽阔、人口众多,无时无刻不在产生巨量的数据,这些数据已经成为我国重要的战略资源。大数据往往具有极高的维度和海量的数据,这为大数据分析带来了巨大的机遇与挑战。一方面,海量的数据为大数据分析方法提供全体数据,而不仅仅是数据样本,这能显著提高概率估计算法的精度。另一方面,极高的维度使得传统的机器学习与数据挖掘算法变得不可用,加剧了维数灾难问题,使得因果关系分析变得十分困难。由于相关关系分析具有可解释性强、效率高等优势,受到了越来越多的关注。本文以大数据相关关系挖掘为研究课题,重点研究了目标变量与特征和交互作用之间的相关关系。在机器学习与数据挖掘领域,特征选择被广泛应用于分析特征与目标之间的相关关系,该方法能够得到与目标变量相关的关键特征。因此,本文提出使用特征选择方法分析特征和交互作用与目标变量之间的相关关系,重点研究了大数据相关关系挖掘中的四个关键问题:因子交互作用挖掘问题;因子排序和显著性分析问题;大数据相关关系挖掘方法的效率问题;大数据相关关系挖掘的实际应用问题。本文的主要研究内容可分为如下四个部分。(1)针对大数据相关关系挖掘的因子交互作用挖掘问题,提出了基于信息论的特征选择方法。主要开展了三方面的研究工作。第一,为了研究基于特征选择的交互作用挖掘方法的理论基础,提出了基于互信息的特征选择方法的理论框架,该框架将特征选择问题分解为一系列交互作用的和,现有的大量基于互信息的特征选择方法都可以规约到该框架。第二,提出并实现了一种通过交互作用信息量考虑高阶交互作用的特征选择算法Max-Interaction。第三,提出并实现了一种通过联合互信息和最大最小方法考虑二至四阶交互作用的特征选择算法FJMI(Fourway Joint Mutual Information)。大量实验表明,Max-Interaction和FJMI能有效地挖掘显著的交互作用,并提升了特征选择算法的性能。(2)针对大数据相关关系挖掘的因子排序和显著性分析问题,提出了基于试验设计的特征选择方法。主要开展了四方面的研究工作。第一,提出并实现了一种基于析因设计的特征选择算法FDFS(Factorial Design based Feature Selection),FDFS能够同时选择重要的特征和交互作用,通过因子效应对特征和交互作用进行统一排序,并通过p-value对各个特征和交互作用的进行统计学显著性分析。FDFS成功挖掘了PM2.5数据集的一个重要交互作用:风速与风向的交互作用。第二,提出了通过部分析因设计降低FDFS方法所需的因子水平组合数量,从而允许分析更多特征。为了进一步提升FDFS算法的效率,提出了一种为输入数据集快速搜索最大析因设计的算法。第三,提出了一种基于Taguchi方法的自动调参方法。Taguchi方法不仅能从众多参数中识别出关键参数,而且能够得出统计意义下最优的参数值。第四,研究了将试验设计应用于解决分类问题的方法。首先将目标变量转化为多个二值变量,然后通过连接函数将二值变量转化为连续型变量,最后通过多变量线性回归方法融合多个二值响应变量的结果,得到原分类问题中的显著特征和交互作用。(3)针对传统大数据相关关系挖掘方法的效率问题,提出了使用量子计算加速特征选择算法的方法。主要研究通过量子计算提升基于特征选择的大数据相关关系挖掘算法的效率,开展了两方面的研究工作。第一,提出了使用量子计算加速基于互信息的过滤式(filter)特征选择算法。通过量子计数算法加速基于直方图的概率分布估计算法,以及量子最小值算法加速求解变量值域和目标函数的最大值,最终使过滤式特征选择算法实现了二次加速(quadratic acceleration)。第二,提出了使用量子计算加速嵌入式(embedded)特征选择算法。通过量子算法HHL加速矩阵求逆运算,以及量子向量内积算法加速矩阵乘积运算,最终加速了嵌入式特征选择算法。(4)针对大数据相关关系挖掘方法的实际应用问题,将本文提出的信息论特征选择方法应用于文本数据的相关关系挖掘。由于万维网和社交网络的飞速发展,大量文本数据被收集和处理,文本数据的特征是单词或短语,因而文本大数据的维度高并且数据量大。针对文本大数据,使用Max-Interaction算法和FJMI算法得到了更好的特征选择性能,并能够自动地挖掘显著的交互作用,单词之间的交互作用可解释为短语。
其他文献
<正>伴随着我国老年人口比例的快速增加,养老服务产业方兴未艾。据国家民政部、老龄办发布的《中国老龄事业发展报告(2016)》指出,目前我国老龄人口的增长速度为3.3%,老龄人
使用ABAQUS得到异形截面铝合金构件的承载力,发现我国的铝合金结构设计规范GB 50429—2007和欧洲铝合金结构设计规范Eurocode 9对该类截面铝合金轴压构件承载力的计算结果相
结合某公路工程,针对公路水泥稳定碎石层的施工质量检测,分析了EDTA二钠水泥剂量检测、压实度检测以及无侧限抗压强度检测等检测措施的具体应用,以期为提升公路工程检测质量提供
本文介绍了堤防工程裂缝的分类以及采用独立坐标系对裂缝进行三向测量的观测方法.
防风通圣颗粒具有解表通里,清热解毒之功效。通过分析运用防风通圣颗粒结合中药药浴的方法,治疗皮肤瘙痒症、接触性皮炎、湿疹及足癣等皮肤病的病案,可以看出防风通圣颗粒通
本文研究热风干燥(Hot air drying,AD)、真空微波干燥(Vacuum microwave drying,VMD)、真空冷冻干燥(Vacuum freeze drying,VFD)、热风联合真空微波干燥(Hot air combined vacuum mi
论文回顾了舰船隐身技术发展的历程,介绍了雷达散射截面理论计算方法以及雷达散射截面减缩的基本方法和注意事项。基于隐身外形技术,设计了三种隐身防护罩,通过开展RCS仿真与
皮划艇是水上竞速类运动,冲刺环节决定了成绩走势。本文采用录像解析法、数据统计法,对2015年皮划艇世锦赛200米冠军李强的高桨频高速的冲刺技术研究分析,分析其划桨频率、艇
随着我国社会经济的快速发展,城市水资源供需矛盾日益尖锐,水环境恶化趋势日益严重.文中针对这一现实,提出了加强对城市水资源的有效管理和保护的具体措施,以实现水资源的可
当前中国经济的快速发展,人民生活水平的不断提高,群众的旅游需求不断增加,使得旅游产业发展持续增长。旅游产业的快速发展对促进经济发展、扩大内需、增加就业岗位等发挥着