【摘 要】
:
众多基因生物标志物选择方法常因研究样本较少而不能直接用于临床诊断.于是有学者提出整合不同基因表达数据同时保留生物信息完整性的方法.然而,由于存在批量效应,导致直接整合不同基因表达数据可能会增加新的系统误差.针对上述问题,提出一个融合自主学习与SCAD-Net正则化的分析框架.一方面,自主学习方法能够先从低噪声样本中学习出基础模型,然后再通过高噪声样本学习使得模型更加稳健,从而避免批量效应;另一方面,SCAD-Net正则化融合了基因表达数据与基因间的交互信息,可以实现更好的特征选择效果.不同情形下的模拟数据
【机 构】
:
中国科学技术大学 管理学院, 合肥 230026;中国科学技术大学 国际金融研究院, 合肥 230026
论文部分内容阅读
众多基因生物标志物选择方法常因研究样本较少而不能直接用于临床诊断.于是有学者提出整合不同基因表达数据同时保留生物信息完整性的方法.然而,由于存在批量效应,导致直接整合不同基因表达数据可能会增加新的系统误差.针对上述问题,提出一个融合自主学习与SCAD-Net正则化的分析框架.一方面,自主学习方法能够先从低噪声样本中学习出基础模型,然后再通过高噪声样本学习使得模型更加稳健,从而避免批量效应;另一方面,SCAD-Net正则化融合了基因表达数据与基因间的交互信息,可以实现更好的特征选择效果.不同情形下的模拟数据以及在乳腺癌细胞系数据集上的结果表明,基于自主学习与SCAD-Net正则化的回归模型在处理高维复杂网络数据集时具有更好的预测效果.
其他文献
区块链作为对等网络中的一种分布式账本技术,集成了密码学、共识机制、智能合约等多种技术,提供一种新型信任体系构建方法.智能合约具有公开透明、实时更新、准确执行等显著特点,在区块链中为信息存储、交易执行和资产管理等功能的实现提供了更安全、高效、可信的方式.但是,智能合约本身仍然存在安全问题,影响了区块链技术的进一步推广使用.所以,近年来围绕智能合约安全问题的相关研究比较多,为了帮助相关人员更好地理解和掌握其中的研究思路,本文采用Mapping Study方法,通过收集2015年以来公开发表的关于智能合约安全问
近年来,现场可编程逻辑门阵列(FPGA)由于其灵活的可定制性和优秀的并行性,在硬件加速卷积神经网络(CNN)的研究和应用中吸引了广泛的关注.这些工作主要集中在两方面:对特定硬件加速模块的设计和优化以及对一类网络模型的通用加速硬件设计.前者一般是基于数据流的针对固定网络的设计,通过牺牲通用性来换取性能;后者一般是基于指令集能够加速一类模型的设计,通过牺牲性能来换取通用性.为了能够灵活地应对不同的需求,本文提出一种通过管理不同粒度算子来平衡性能与通用性的fGrain框架.该框架一方面利用底层基于数据流的算子设
在大规模、数据量密集的特定应用场景下,以行存储访问数据的方式弊端日益凸显,逐渐不能满足数据高速访问的性能需求,数据亟需更加高效的传输和处理方式.因此,拓展新的内存访问方式,并且同时兼容行、列方向的访问对提升访问效率、降低整体功耗、节省内存空间有着重要意义.本文围绕动态随机存储和非易失性存储两个方面来详细介绍实现列方向的内存访问方式,重点分析了存储单元的结构设计以及实现列向存储访问过程.最后,对内存两种不同访问方式进行了比较和总结,并且对行列访问的内存数据库、数据挖掘、数据加密算法、实时系统的应用场景进行了
随着量子计算机的快速发展,经典密码系统面临巨大的威胁.Shor算法可以在量子计算机上多项式时间内分解大整数和求解离散对数,而这两类问题分别对应经典公钥密码系统中的RSA和椭圆曲线密码(ECC)所依赖的困难问题,因此可以抵御量子计算攻击的后量子密码近年来受到广泛的研究.格密码是后量子密码中最为高效且拓展性强的一类密码算法,在未来会逐步替代传统公钥密码算法(RSA、ECC等).256位高级向量扩展(AVX2)指令集是英特尔64位处理器中普遍支持的一类单指令多数据(SIMD)指令集,可用于并行计算.但是,由于格
近年来,越来越多的应用或微服务部署到云端.虚拟网络是云端部署运行的基本保障.为了构建面向虚拟机和容器等虚拟实例的虚拟网络,网卡虚拟化在物理网卡的基础上,构建虚拟网卡和虚拟网桥等设备,并对各虚拟设备进行配置和管理.本文从虚拟网卡和虚拟网桥出发,调研了网卡虚拟化中目前流行的虚拟技术,并将这些技术进行了分类和比较,最后就网卡虚拟化的现状及未来进行了总结和展望.
数值模拟是宇宙学中重要的研究方法,可以帮助科学家了解宇宙演化过程和验证理论模型.可视化是分析模拟数据最有效的手段之一,通过对模拟数据的可视化和交互式探索可以极大提高科学家的分析效率.随着超级计算机的发展和宇宙学理论的不断完善,数值模拟的规模越来越大并且精度越来越高,这对可视化产生了多种分析需求和数据处理挑战.本文概述了宇宙数值模拟中可视化的主要方法,并且通过多个研究案例展示了可视化方法在宇宙模拟数据分析中的作用.最后,本文总结了当前研究的热点和面临的挑战.
设备故障的变化趋势一般从轻微故障开始,逐渐发展到整个设备丧失工作能力.为了在设备轻微故障时准确检测,本文提出了一种基于加权马氏距离(Weighted Mahalanobis Distance,WMD)和设备状态指数(Device Status Index,DSI)的设备健康状态评估方法.该方法基于改进的马田系统,对设备有效运行特征参数构建稳定基准空间,筛选特征并按照设备故障敏感性计算加权马氏距离,排除了特征相关性的干扰;利用Box-Cox变换确定设备状态指数的阈值,构建复杂重型装备健康状况模型.通过实验验
随着智能化水平的不断提高,每时每刻都有大量的新知识产生,知识图谱逐渐成为我们管理知识的工具之一.但现有的知识图谱仍然存在属性缺失、关系稀疏等问题,同时还存在大量噪声信息,导致图谱质量不佳,易对自然语言处理领域中的各类任务造成影响.面向知识图谱的知识推理技术作为目前的研究热点,是解决该问题的主要方法,其通过模拟人的推理过程完成对图谱信息的完善,在众多应用中有较好表现.以知识图谱为切入点,将知识推理技术按类别划分并分别阐释,详细分析该技术的几种应用任务,例如智能问答、推荐系统等,最后对未来主要研究方向进行展望
下一个兴趣点推荐是基于位置的社交网络(Location-Based Social Network,LBSN)的重要服务之一,其不仅可以帮助用户寻找其感兴趣的目的 地,还能帮助商家提高潜在的收入.目前已有算法提出采用用户行为序列信息以及兴趣点信息进行推荐,但其没有很好地利用兴趣点辅助信息,因此无法缓解冷启动与数据稀疏问题.本文提出了一种基于图嵌入与GRU (Gated Recurrent Unit)的兴趣点推荐模型GE-GRU (Graph Embedding-Gated Recurrent Unit).G
边缘计算可以有效解决传统云计算中传输时延大、用户数据安全性不够高、传输带宽压力大以及终端移动设备计算能力受限、能耗大等问题.计算卸载是边缘计算中的关键技术,针对当前计算卸载技术的研究现状和存在的不足,本文围绕计算卸载,首先介绍边缘计算的体系架构以及部分应用和分析4种主要的影响因素以及相应具体的条件;其次针对3种决策目标分析了算法策略及对应变量在算法中的作用;最后总结目前在计算卸载中存在的不足.