基于网络模型的混合属性数据集离群点检测方法研究

来源 :中国矿业大学 | 被引量 : 0次 | 上传用户:game780
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群点检测作为数据挖掘的主要研究方向,已得到学术界和工业界的广泛研究和应用。对于许多工程实际问题,数据集往往同时包含数值型和分类型属性,即,混合属性数据集,因此,对混合属性数据集中的离群点进行检测和研究具有重要的理论意义和实际应用价值。近年来,基于网络模型的离群点检测方法因其鲁棒的表达能力和能够捕捉数据对象之间的相互依赖性和长期相关性而广受关注。但该类方法大多用来处理数值型属性数据集,少有涉及混合属性数据集;且在网络模型构建中邻域参数的存在仍是一个值得研究的问题。基于此,本文提出两种基于网络模型的混合属性数据集离群点检测方法,具体研究内容如下:(1)提出一种基于加权邻域信息网络的混合属性数据集离群点检测方法。首先基于混合欧氏重叠度量方法和邻域信息系统获取混合属性数据集中数据对象之间的邻居关系;然后,基于数据对象之间的邻居关系和关系的亲密程度构建加权邻域信息网络;接着,根据数据对象之间的相似度与边存在性规则确定状态转移概率矩阵从而执行随机游走过程,当其达到稳定状态后,结合稳态分布向量值和网络中节点的出度制定度量数据对象离群程度的指标;最后,在Hayes-Roth和Lymphography数据集上进行实验,通过结果分析和方法对比验证所提方法的适用性和有效性。(2)提出一种基于加权有向网络的混合属性数据集无参数的离群点检测方法。首先,设计混合属性数据对象自然最近邻居的自动搜索算法,这一过程无邻域参数且完全基于数据对象在数据集中的分布特性;然后,基于数据对象之间的邻居关系和距离构建加权有向自然最近邻居网络,引入“Ground”节点(表示为xg)和2n条虚拟边以形成强连通的全局加权有向网络来避免孤立节点;接着,执行随机游走过程,当其达到稳定状态后,考虑xg节点对数据对象离群程度的影响,结合稳态分布向量值构建离群得分实现离群点检测;最后,在Zoo、Glass Identification和Balance Scale数据集上进行实验,通过结果分析和方法对比验证所提方法的适用性和有效性。(3)分别以仓储系统和风力发电机组为研究对象对以上两种方法进行案例验证。将仓储系统异常运行状态的识别和风力发电机组性能退化的评估建模为一类数据驱动的离群点检测问题,分别基于加权邻域信息网络的混合属性数据集离群点检测方法和基于加权有向网络的混合属性数据集无参数的离群点检测方法对其展开研究,通过与现有研究结果的对比分析,进一步验证所提两种方法的适用性和有效性。本文将近邻思想与网络模型相结合,利用改进的相似性度量方法,实现基于网络模型的混合属性数据集离群点检测,并继承网络模型强的可解释性和鲁棒性。考虑到邻域参数的取值对离群点检测结果的影响,引入自然最近邻居思想,实现基于加权有向网络的混合属性数据集无参数的离群点检测,减少该类方法对标签数据的依赖性,增强其解决工程实际问题的能力。通过两个不同的应用场景,进一步说明所提两种方法的适用性和有效性。该论文有图36幅,表29个,参考文献124篇。
其他文献
磁性纳米流体相较传统工质在强化换热领域有着巨大应用潜力,同时也是一种促进和达成“碳达峰”、“碳中和”的有效途径,随着无线充电设备的深入研发,磁性纳米流体也进一步展示出它在工程领域的发展前景,但这种换热工质在技术上仍存在一些困难亟待攻克。为了从系统层面和微观角度进行综合的传热机制分析,本文以四氧化三铁/碳纳米管复合磁性纳米流体(Fe3O4@MWCNTs-H2O-GA)作为工质,通过实验与数值模拟方法
学位
核型分析作为细胞学遗传研究的基本方法,已成为遗传疾病筛查和产前诊断的关键环节。染色体分割作为核型分析的首要任务,直接决定后续染色体分类及异常检测的准确性和可靠性。然而,作为一种柔性物质,即使是相同编号的染色体,在不同时刻的细胞核中也会呈现出不同的弯曲形态。此外,由于高度聚集而导致的染色体接触、交叉和重叠现象普遍存在。此类困难使得染色体的精确分割仍高度依赖人工,辅助分割算法性能偏低,极大限制了高质量
学位
废弃工作面遗留煤层气资源评价与开发具有重要意义。本文以山西省西山煤田屯兰矿南五盘区废弃工作面12501工作面为研究对象。采用数值模拟、物理相似模拟及分析测试相结合的手段,定量划分了废弃工作面不同区带,研究了煤层开采扰动条件下煤储层孔裂隙变化特征,计算了12501工作面遗留煤层气资源量。主要认识如下:第一:基于相似物理模拟结果,12501工作面煤层开挖完成并稳定后覆岩开采扰动区底部垮落带高度13.2
学位
随着国家“碳达峰”、“碳中和”战略目标的提出,“节能、绿色、环保”的可持续发展理念也受到混凝土行业的高度重视。同时,国家对超高层建筑、大跨度重载结构以及大跨度桥梁等建筑物需求越来越高,使得高强混凝土得到了广泛使用。为了提高对固废综合利用率并且配置高强混凝土。本文将石灰石粉、粉煤灰、矿渣以及硅灰等矿物掺合料与天然河砂、尾矿机制砂等细骨料以不同方式进行掺配,探究混凝土基本性能与梁力学性能。主要研究结论
学位
高速铁路沿线不可避免存在软土、密实砂层以及碎石角砾土等复杂地层环境,而常用水泥土桩虽然地层适用范围广,但桩身强度低不能有效控制沉降,且有效桩长的存在使得水泥土桩下部侧摩阻力得不到发挥;混凝土预制桩在上述地层桩体不易植入、桩周土发生剪切破坏时桩身强度却远远没有得到发挥等问题。水泥土复合预制桩作为一种新桩型,可以充分结合两种桩型的优势,提高承载力并能有效控制沉降。目前尚且缺乏柔性基础下水泥土复合预制桩
学位
近年来,大气中CO2浓度的不断增加导致全球变暖,严重危害自然生态系统的平衡和人类的居住环境。因此,CO2捕集技术的发展受到了广泛的关注,同时CO2作为一种C1资源,具有廉价、无毒、易获取、可再生等优点。如何将CO2变废为宝,转换成高附加产品是近年来的研究热点。共价三嗪骨架材料(CTFs)作为一种功能性多孔材料,其主要的结构特征是具有平面π共轭的芳香族1,3,5-三嗪环,并具有较高的比表面积、高含氮
学位
热解气化是将可再生的生物质资源转化为富氢气体的重要技术之一,但气化过程中焦油的生成会严重影响其大规模工业化利用。开发成本低、活性高且稳定性好的生物质焦油裂解催化剂成为提高生物质气化效率的关键。以改性褐煤为碳前躯体,利用离子交换法制备的Ni/C和Co/C催化剂在生物质焦油裂解中均具有良好的活性。其中Co/C具有更优异的亲氧性和抗积炭能力,因而在反应中能达到更好的稳定性。但炭基载体在高温下易发生损耗,
学位
城市绿地三维绿量反演及其梯度特征研究,可以为城市绿地快速、准确、全面监测提供数据基础和技术支撑。本文以徐州市城区为例,基于Sentinel-2A遥感数据、实地样方数据、DEM数据,通过区分城市绿地植被覆被类型,运用逐步多元线性回归方法构建和优化了城市绿地三维绿量反演模型,提高了模型的精确度,从三维绿量等级、像元尺度、地形尺度三个维度构建了梯度分布指数,揭示了城市绿地三维绿量的空间梯度特征,提出了徐
学位
在国家政策的推动下,我国经济高速发展,现代化经济体系建设不断完善。然而,这些成就是建立在牺牲过量能源、污染环境的基础之上。为了维持经济的长久发展,我国亟需改变现有粗放型的经济增长模式,完成产业的绿色转型。作为重工业的典型代表,高耗能行业对能源消耗和二氧化碳排放产生的影响不容小觑。价格机制是市场实现资源优化配置、促进企业转型的重要途径,却由于政策环境等因素产生价格畸形,无法充分发挥作用。对此,文章基
学位
近年来,深大冻结井筒内壁混凝土在凿井期裂漏严重,但机理不明,揭示凿井期内壁混凝土开裂机理是科学防治冻结井筒渗漏水害的前提。为此,本文研制了适用于新筑混凝土井壁温度-应力试验机并初步应用,为研究井筒内壁厚度、混凝土强度、约束条件对早龄期混凝土内壁裂缝演化规律提供了仪器支撑。首先,本文详细阐述了新筑混凝土井壁温度-应力试验机的研制过程,主要工作内容包括:完成试验机总体结构方案和软件控制界面的设计与优化
学位