海量数据相关性判别算法研究及应用

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户:dartal_1999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据增长速度比以往任何时候都快,到2020年,地球上的每个人每秒创造大约1.7兆字节的新信息。检测大数据集中变量之间的关系在基因组学,物理学,政治学和经济学领域变得越来越普遍,这使得发现变量之间的关系成为一个日益严峻的挑战。一般而言,在样本量足够大的情况下,我们希望能够找到变量之间广泛的关联,不仅限于特定的函数(如线性),而应该是所有的函数关系。我们希望找到在不同类型的关系中具有相同噪音下的相似的分数度量。在对基因数据的研究中,检测与疾病关联的致病基因的研究占有重要地位,是人们研究的重点问题。然而现有的大部分方法检测手段时间长、代价大,因此希望通过其他手段对致病基因做出检测。而传统的计算方法对于非线性的函数检测效果差,为此,本文针对这两点提出新的解决方法。本文的主要研究成果有:1.最大信息系数(MIC)是一种有效的探索数据关系的工具。MIC在将变量划分成网格时穷尽所有划分方法,并且该过程决定了MIC算法的时间在大数据集中计算复杂。我们通过提出一种新的近似算法,对MIC在大数据集中的应用做出了重大改进,称为CDMIC(使用Cluster Division的最大信息系数)。首先,我们使用快速聚类方法来生成相似数据的中心节点,并使用中心节点来表示密切相关的点,形成聚类。其次,计算每个区域的MIC值,最后,我们使用加权MIC值的总和。实验结果表明,CDMIC保留了MIC的优点,可以准确识别相关数据对的存在。而CDMIC算法在时间有效方面远优于MIC算法。该方法可以用于致病基因的检测。2.传统的检测致病基因的方法为线性回归,但线性回归的方法在非线性的函数下检测效果差,而非线性回归的方法检测时间长。本文整合了两种方法的优点,提出了基于装袋的区域逐步非线性回归模型,并采用最小角度回归(LARS)算法快速的得到结果,最后验证该算法的正确性与时间效率。实验结果表明:相对于传统方法使用的线性回归模型,本文提出的基于装袋的逐步非线性回归模型在基因数据上得到的效果更好。
其他文献
火烧油层是提高原油采收率的重要方法之一。在稠油火驱采油过程中,电点火技术是通过地面控制系统向电点火装置发热元件输送电能,产生油层点火所需热量,其热量通过空气压缩机注入的空气带入油层,从而点燃油层的技术。电点火技术具有安全性高、点火成功率高、温度可控制等优势。但是,现有的电点火技术存在热量利用率低、电点火装置尺寸过大等缺陷,导致电点火装置不易下入和起出油井,造成很大的经济损失。为此,本文研究了电点火
气象雷达起源于上个世纪中期,经过了几十年的发展,如今已成为天气预测,灾害预防等领域最重要的工具之一。当前,最新型的气象雷达为多普勒脉冲雷达。它利用发射、接收电磁波并根据反射波的强度生成气象雷达图像数据。过去,利用传统方法对气象雷达图像数据进行处理在效率与准确性上都存在一定不足。随着近年来人工智能技术的发展,利用深度学习技术对图像数据进行处理的方式已经得到了越来越广泛的应用。深度学习技术通过设计特定
毕达哥拉斯模糊集是直觉模糊集的一种有效拓展,能更好的表达决策信息。作为一种新兴的直觉模糊集,毕达哥拉斯模糊集的相关研究需要进一步完善。本文对毕达哥拉斯模糊集的相关性质以及毕达哥拉斯模糊数在多属性决策中的应用进行了研究。(1)首先考虑隶属度和非隶属度的相互影响,定义了不同毕达哥拉斯模糊数之间的运算公式,讨论了相关性质。(2)针对已有的记分函数和准确度函数的不足,在考虑了支持、反对、犹豫三方面信息之后
城市化进程中的乡村文化危机一直是困扰着改革开放后国人的一大问题。青少年逃离乡土,对故乡的疏离感,导致一代人甚至是很多代人乡土文化情感的缺失。乡土文化教育不仅仅是热
形式概念分析理论(FCA)也称概念格理论,形式概念分析研究的基础是形式背景,行为对象,列为属性的布尔型二维表可表示形式背景。由对象与属性的二元关系可建立一种概念层次结构,可用于概念排序、概念推理及概念表示。形式概念分析作为一种有效的数据分析工具,广泛应用于诸多领域。决策形式背景的属性约简是形式概念分析的重要研究内容,基于经典概念格的决策形式背景属性约简有决策规则的约简,粒约简,强协调约简等等。三支
该研究旨在了解大学生父母教养方式、孤独感和学校适应的基本情况以及三者的关系,并基于相关性研究,针对性地设计降低大学生孤独感主题的团体辅导,探索提高他们的学校适应的有效途径。本文由相关研究和干预研究两部分组成,研究一采用父母教养方式问卷、UCLA孤独量表和大学生学校适应问卷对747名大学生进行问卷调查,以收集到的数据检验三个变量间的关系模型,验证孤独感在父母教养方式与学校适应间的中介效应。基于研究一
学位
微震技术已广泛应用于煤岩动力灾害监测预警、油田压裂、边坡稳定性分析等领域。由于监测环境的复杂性及仪器自身局限性,实际监测到的矿山微震信号在采集、传输过程中受到了
近年来,遥感影像的空间分辨率不断提高,数量级达到了分米级,在高分辨率遥感影像中,地面信息更加丰富,其中建筑物是地表信息中的重要组成部分之一,如何快速准确地提取影像中的建筑物一直是研究的热点问题。传统的建筑物提取算法主要是通过对像素光谱信息的处理以得到目标地物,但是,由于遥感影像数据量巨大,更新速度较快,目视解译与基于像素的提取方法已不能满足实际需求,需要探索提取高分辨遥感图像信息的新方法。深度学习
软件工程师在开发过程中会耗费大量时间针对编程语言特性、API使用规范、算法实现等诸多内容进行搜索。而随着现代软件开发规模的增大,代码检索(Code Retrieval)在软件开发过程中的重要性也随之增大。新手开发者和学生能够通过代码检索工具进行学习,富有经验的开发者也能通过代码检索工具加快开发进度。代码检索研究领域属于软件工程与信息检索研究的交叉领域。代码检索旨在提供与符合用户意图的代码片段以增强
基于文本描述的图像生成任务是根据文本描述生成符合描述的图像的研究任务。这一颇具挑战性的研究任务因其潜在的应用价值受到了跨模态研究领域的广泛关注。当前的研究方法大多是通过生成对抗网络来建立深度学习模型。这些文本到图像生成模型往往是以全局语言表示为生成条件来生成符合文本描述的图像。然而,由于全局语言表示在高维空间中的分布往往是稀疏的,这导致生成对抗网络十分难以训练,并且模型生成的图像缺乏细粒度的信息。