基于贝叶斯网和深度学习的多字段数据嵌入表示方法研究

来源 :西安石油大学 | 被引量 : 0次 | 上传用户:kingly1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多字段数据,又称为表格数据,是机器学习领域最为经典,应用最为广泛的数据类型。随着深度学习的发展,各种用于多字段数据领域的深度学习模型被不断提出。而特征表示作为影响深度学习模型性能的一个重要因素,对从数据中获取更多有价值的信息具有重要意义。离散化是特征表示中的一项重要技术。近年来的研究表明,离散化在许多模型中均能起到正面作用。但在深度学习中,通常仍对定性特征编码并对定量特征归一化,而没有对离散化的作用进行充分探讨。因此,本文对离散化在深度学习模型中的作用进行验证。实验结果表明,在深度学习模型中使用离散化,不仅可以加快模型收敛,减少模型训练时间,更能提高模型精度并为模型带来抵御协变量漂移的鲁棒性。现有的深度学习模型能够通过交叉特征或嵌入等方法,对数据中的高阶特征交互进行自动学习,以获取更好的特征表示。但它们通常模型结构复杂,训练时间长,并且需要对嵌入层大小进行手动调整。同时,嵌入层权重通常使用随机分布进行初始化,没有利用任何数据间的交互信息。基于此,本文提出了基于贝叶斯网和深度学习的多字段数据嵌入模型BNE。该模型的思想是,利用贝叶斯网捕获数据特征之间的高阶交互,藉此生成数据特征的嵌入表示,并利用神经网络嵌入层将其送入深度学习模型中。由于将生成的嵌入表示使用初始化的方式送入嵌入层,因此不会导致复杂的网络结构;并且嵌入表示的大小直接由贝叶斯网的结构所决定,无需对嵌入层大小进行调整。实验表明,使用k依赖贝叶斯模型的BNE能够达到比流行的深度学习模型更高的精度,且收敛速度更快。
其他文献
电机作为一种能量转换设备,在我国工业化进程中起着不可替代的作用,在工业生产中,电机的性能和质量影响着企业的生产效率和经济效益,因此在电机投入使用前,对电机性能和质量的测试尤为重要。传统的电机测试系统存在测试手段单一、测试量少、数据批量化采集不方便、数据分散等问题。为此,本文基于微服务设计并实现了电机测试测量系统,主要研究内容如下:在电机测试方面,本文利用EMQX消息服务器和微服务架构,搭建了一个电
学位
在我国油田的开发后期,其主体开发方式是注水开发,然而长期的注水开发导致油田进入高含水甚至特高含水期,开发难度越来越大。为了提高注水开发效率,对水驱油过程和注水驱替后剩余油分布规律进行深入研究十分关键。本文针对现有水驱油研究过程中物理仿真实验准备周期长、局限性大等问题,设计并实现了一种基于岩心图像识别的水驱油仿真系统。该系统以输入的岩心图像数据为基础,结合数字图像处理技术和计算机仿真方法,能够实现在
学位
在以往的钻井生产中,专家工程师通常需要驻守钻井现场,进行数据监测和生产指挥。但是钻井现场大多位置偏僻,环境恶劣,给工作人员带来了很大的不便。为了解决专家工程师需要驻守钻井现场的问题,本文结合远程钻井技术和集成学习算法,研究并实现了钻井实时数据管理系统,主要研究内容包括钻井事故检测算法和钻井实时数据管理系统两部分。在钻井事故检测中,本文提出了基于GA(Genetic Algorithm,遗传算法)-
学位
癌症如今已成为人类健康最主要的“杀手”之一,而皮肤癌是癌症中常见的一种,对皮肤癌疾病进行及早筛查,可以大大提高患者的生存率和治愈率。皮肤镜检查技术可以生成皮肤镜图像,显示肉眼不可见的皮肤形态特点,作为一种代表性的无创伤式皮肤辅助诊断方法,是目前诊断皮肤癌疾病的核心工具。通过肉眼识别皮肤镜图像,不仅费时费力,而且极易受到医生个人主观经验的影响,造成误诊和漏诊。因此,利用计算机技术辅助医生对皮肤镜图像
学位
油气田工业中的设备检测是工业安全生产的重要环节。传统的检测方式需要消耗大量的人力、物力,且无法在短时间内准确的检查所有设备。近年来,随着计算机技术的飞速发展,在油气田工业设备检测中,深度学习逐渐有了广泛的应用。经典的目标检测算法Faster RCNN,在工业领域该模型具有一定的局限性。为了能够更好的应用于油气田工业,本文对Faster RCNN的区域生成网络、分类器分别提出改进方案,主要研究工作包
学位
利用深度学习技术对岩心图像进行研究,是近年来计算机视觉领域的一个研究热点。岩心图像往往包含大量的背景信息,且容易受到光照、拍摄设备等因素的影响,如何对识别目标进行精确定位并提取更具有表达力的特征,是研究岩心图像分类算法的基本问题之一。针对以上问题,本文提出了基于深度学习的岩心图像分类算法。主要工作如下:(1)构建一种基于混合域注意力机制的岩心图像分类算法。针对已有岩心图像识别算法存在特征信息易丢失
学位
深度信息是理解场景三维几何关系的重要组成部分,准确有效的深度信息有助于更好地理解场景。现如今深度信息通常通过深度传感器来获取,但由于其硬件成本高及场景受限等原因难以推广使用,因此直接从二维图像中获取深度信息的研究受到广泛关注。图像深度估计就是直接从二维图像中获取深度信息的技术,是计算机视觉领域重要的研究课题之一。传统的深度估计方法大多对设备有较高要求且计算复杂,加大了深度信息获取的难度。得益于计算
学位
随着计算机技术的高速发展,计算机辅助诊断技术在医学图像领域取得了较好的成果。核磁共振成像技术(Magnetic Resonance Imaging,MRI)是目前辅助医生诊治脑瘤疾病的重要成像方法,通过提取复杂医疗图像中的病灶区域,可以为后续的分析与处理工作提供依据。为取得更好的图像分割效果,很多研究人员致力于将改进型的卷积神经网络用于脑瘤MRI图像分割,但由于脑瘤图像缺乏简单的线性特征,复杂度较
学位
油田措施方案是油田增产的重要资料,其中蕴含着很多知识和经验,如何从中抽取知识用于优化措施方案,提高增产效果,是油田亟待解决的问题。对于油田措施方案中知识的抽取,本文主要从标注语料库、命名实体识别和实体关系抽取三方面对油田措施方案中知识抽取方法进行了研究,最后选择效果较优模型,结合油田措施方案知识开发了油田措施方案知识抽取系统。针对油田措施方案的标注语料匮乏问题,本文结合油田措施方案知识的特点对该领
学位
无人机的自主着陆是其飞行中的重要环节,而对无人机进行精准定位是保障无人机安全稳定着陆的前提。传统的GPS(Global Positioning System)、RTK(Real Time Kinematic)等定位方式易受极端天气、卫星状况以及电离层等因素的影响,无法满足高精度定位、适应性强等要求。视觉定位是一种利用摄像机进行定位的技术,其抗干扰能力强、定位精度高,能适应大多数无人机着陆场景。本文
学位