【摘 要】
:
数据挖掘是一门实际应用的学科领域,目的是从数据中发现知识,挖掘出潜在的、可用的经验模式,数据挖掘可以被视为机器学习和数据库的交叉领域,机器学习是数据挖掘常用的分析工
论文部分内容阅读
数据挖掘是一门实际应用的学科领域,目的是从数据中发现知识,挖掘出潜在的、可用的经验模式,数据挖掘可以被视为机器学习和数据库的交叉领域,机器学习是数据挖掘常用的分析工具。其中,基于结构化数据的机器学习分类算法在应用过程中占有重要地位,许多场景都可以转化为分类问题,例如风险预测、疾病诊断以及推荐等场景。随着大数据、云计算等技术的普及,人们管理和收集数据的能力越来越强,数据挖掘领域的数据规模逐渐扩大,这使得分类算法在应用过程中也会存在许多问题,主要可以归纳为两个方面:1)由缺失值和离散特征带来的稀疏数据学习问题;2)低阶和高阶特征交叉信息的学习和表示问题。但是,传统的机器学习分类算法往往并不适合处理大规模高维稀疏数据,且需要人工手动进行特征交叉信息的提取,开发周期长、效率低。深度学习是一个强大的学习范式,允许从大数据中进行大规模任务驱动的特征学习,能够自动组合低阶特征,提取、抽象出高阶特征。本论文以结构化数据分类问题为应用背景,主要研究了基于神经网络架构的分类算法,设计并提出了基于深度因子分解机的分类模型,并应用于风险预测问题上,从而有效解决实际分类场景下的数据稀疏性问题和特征交叉信息的学习和表示问题。论文主要包括以下工作内容:(1)提出了基于深度因子分解机和梯度增强决策树的分类算法模型,能够自动提取多种不同类型的交叉特征:分解机的低阶交叉特征、神经网络的隐式高阶交叉特征,以及基于梯度增强树叶子节点编码的显式高阶交叉特征。这能帮助模型充分学习隐含在数据背后的低阶和高阶交叉信息,提升模型对于非线性分类场景的表征能力。(2)研究了实体嵌入技术对于稀疏数据的学习和表征问题,通过引入嵌入向量的方法,将离散高维稀疏特征映射成为低维空间的连续稠密向量;通过实验验证了使用嵌入向量能够有效降低模型计算的时间开销,并在构建模型的过程中全面引入嵌入向量。(3)研究了模型综合预测性能的影响因素,包括了嵌入向量维度、梯度增强决策树的个数、优化算法等重要因素,确定最优参数集合,为后续的模型应用提供参考和指导。(4)为了降低模型训练的内存开销,本文研究了大数据场景下的特征选择方法,提出基于互信息和最大信息系数法融合的特征选择方法,并通过实验进行验证,结果表明基于过滤法融合的特征选择方法要优于使用单一的特征选择方法。(5)本文将机器学习分类算法应用于用户违约的风险预测问题上,基于传统分类算法和深度神经网络算法,设计不同数据处理方案,构建了不同的风险预测模型。实验表明,利用机器学习算法进行风险预测具有较高的准确率,能够帮助借贷平台有效规避风险。(6)最后,本文结合理论和实验部分,对比分析了八种深度模型的优势和不足,以及它们的时空复杂度。通过对比各项实验指标,结果表明,本模型在复杂度和交叉特征种类上占优势,且引入梯度增强树叶子节点编码确实能够有效提升深度因子分解机的分类性能。
其他文献
随着信息获取手段的增多和数据量的增长,我国预警领域的数据管理建设受到了广泛关注。当前面临的主要问题包括:传统的数据存储方式难以高效安全地存储海量异构数据资源;各部门分别建立的预警信息系统,形成了数据管理和共享的壁垒现象;长期发展所积累的大量数据资源难以进行高效集成。因此,需要建立数据资源统一存储、管理和利用的基础平台。本文结合联合培养单位的实际工程需要,对预警领域的数据集成与共享技术进行了系统的研
随着智能电网的发展,电网之间的同步非常重要,电网同步需要获取公共电网的信息(通常为电网电压的频率,相位和振幅中任意两者的组合)。电网同步按照电网类型分为了单相电网同步和三相电网同步。电网同步通常使用锁相环和锁频环获取电网信息。二阶广义积分器(Second-order Generalized Integrator,SOGI)广泛应用于这些锁相环和锁频环之中。SOGI通过获得锁相/锁频环反馈的估计频率
社会保险费征管职责划转是推进国家治理能力和治理体系的重要举措,是切实以人民为中心优化营商环境的重要举措,是促进政府职能转变推动高质量发展的重要举措。社会保险费由税务部门统一、全责负责征收,是为了提高征管效率、降低企业征缴成本,使各职能单位及部门职责更加清晰、流程更加的顺畅、征收管理更加规范、协调沟通更加有力、便民服务更加高效,而不仅仅是为了追求社会保险费的较快增长,本文的研究是为了提升基层税务机关
随着"互联网+政务"的发展和应用,生态环境领域的业务系统和信息源节点数都呈爆炸式增长。虽然目前的大数据平台能够实现一定程度的数据融合,但由于业务分散、数据结构差异,如
基于微透镜阵列的自由立体显示系统,其显示内容具有水平和垂直两个方向的连续运动视差,具有广阔的应用前景。随着对其研究的不断深入,具有不同透镜阵列排布的显示系统在集成成像显示领域得到广泛应用,而目前使用的渲染方法并不通用于所有的透镜阵列排布,并且生成效率较低。本文使用计算机渲染光场显示内容的方法,通过寻找透镜位置和单元图像之间的对应关系,基于逆向光线跟踪技术对三维光场图像进行渲染,在显著提高渲染效率的
近年来,人工智能技术发展迅速,各类智能移动机器人也比之前能够承担更多的任务,在人们使用移动机器人解决实际问题时,经常遇到移动机器人需要在多个目标点之间完成不同的工作任务的情况。传统的移动机器人路径规划方法主要有:图搜索算法、人工势场优化算法、模糊逻辑算法等,但是在解决多目标点规划问题的时候,这类算法的完备性受限于地图空间离散化的程度,并且该类算法在高维的状态空间中不再具有良好的性能表现。针对传统的
小江断裂带位于青藏高原东南缘,位于华南块体的西边界。由于印度板块和欧亚板块的相互作用,小江断裂带成为我国地震活动最活跃的深大断裂之一,历史上曾经历多次破坏性地震。然而,近100多年来大地震的平静使该断裂成为地震学家重点关注的对象。2012年中国地震局地球物理研究所在小江断裂带北段布设了宽频带地震台和连续GNSS稠密台阵(巧家台阵),旨在检测断裂带运动与地震活动,以便进一步研究破坏性地震形成机制。2
目前,为了方便生产活动,基于物联网的监控系统被广泛开发和应用,其中监控组态图作为物理系统的图形化表示,有助于运维人员完成系统的各项监控操作。传统监控系统中,监控组态图的制作经常需要手动一步步完成,费时费力,没有考虑到应用场景的增加或变化,监控组态图制作过程复杂、制作方式不够灵活,图形演变性差等缺陷和问题日益突出,使系统难以根据场景变化进行扩展。针对上述问题,本文提出了基于资源描述模型的物联网态势监
药物对映异构体存在不同的药理活性和毒副作用,手性药物分离一直是医药领域中的研究热点。色谱拆分法是目前应用较多的对映异构体分离分析方法,特别是基于纤维素类手性固定相的液相色谱拆分法凭借其高效快速、手性识别范围广等优点而被广泛使用,此方法的关键在于手性固定相(CSP)的制备。目前,纤维素类固定相主要是通过涂覆或者键合的方法将手性识别体(纤维素衍生物)涂覆或者键合在大孔硅胶等无机载体上,但由于载体的比表
淀粉样蛋白β(amyloid β,Aβ)的积累和聚集在阿尔茨海默症(Alzheimer’s disease,AD)的致病机理研究中是非常关键的,因而开发能有效抑制Aβ聚集的新型抑制剂具有重要的意义