不均衡数据的数据挖掘及其在法律数据上的应用

来源 :上海理工大学 | 被引量 : 0次 | 上传用户:lqlq329807
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在充斥着海量数据的时代,为了从数据中获取更多潜在的、有效的、有价值的信息,数据挖掘技术以及前沿的机器学习算法应运而生。数据的类别不平衡现象广泛存在于实际应用中,法律案件的分类,信用卡欺诈检测和医疗诊断等众多领域都存在类别不平衡现象。分类器在处理这类数据时极易向多数类样本倾斜,往往表现出较差的分类性能。然而在实际情况下,相较于多数类样本,少数类的数据往往隐含重要信息,更值得被关注。因此,如何提高少数类样本的信息表达并提升分类器性能成为数据挖掘的一大研究热点和难点。本文通过深入研究并分析多种经典过采样算法的弊端,结合多种策略与算法,从以下几个方面展开研究:(1)针对含噪声样本点且样本分布无规律的不平衡数据问题,提出了一种基于多指标和多层精细去噪技术的过采样算法(MIRDOTE)。该算法利用模糊聚类(FCM)技术实现数据的聚类分析;创新性地提出多层精细去噪技术,实现噪声数据的精细化排查;充分考虑少数类样本子簇的分布特性,执行基于指标的权重分配策略,实现类内数据的平衡;在样本合成阶段,根据少数类样本的簇内分布密度,采用分支合成策略,得到更真实的数据分布。(2)针对不平衡数据中存在的1)类间分布不均匀性2)簇内样本分布的松散性3)噪声样本的干扰等问题,提出了一种基于模糊自适应的过采样算法(DFBASO)。该算法利用FCM技术实现不同类样本的类内聚类分析,充分提取样本分布信息;在对少数类簇分配合成样本权重阶段,同时考虑了类间距离和少数类簇内容量两种因素,避免由于样本类间的分布不均匀导致的过覆盖现象;合成阶段,采用基于空间信息相似性的分布式的样本合成策略,进一步保证合成的样本质量。(3)基于故意伤害罪数据,通过运用词袋模型、主成分分析技术、模糊C均值聚类分析、深度神经网络分类器以及岭回归算法建立了专家智能审判系统模型,实现对新案件刑期的有效预判。实验表明,在处理不平衡的故意伤害罪数据以及不平衡的UCI数据集的分类问题时,采用本文提出的MIRDOTE算法以及DFBASO算法在Overall Accuracy,Precision,Recall,F-Score和G-Mean评价指标上均表现出较好的性能,具有实际应用价值。
其他文献
孤立子理论在非线性科学中发挥了重要的作用,其中孤子方程是孤立子理论的重要组成部分.孤子方程精确解的求解问题推进孤立子理论的研究,也合理地解释了自然界中的一些非线性现象.本文我们主要研究了具有Parity-Time(PT)对称的非局域耦合薛定谔方程的有理孤子解和(3+1)维BKP方程的Lump解及相互作用解.基于获得的相关解,借助Mathematica计算软件绘图功能对所求得解的时间发展特征、相互作
学位
在哺乳动物大脑的视交叉上核,有一个能够调节生物生理和行为活动的内源性时钟,简称为SCN(the Suprachiasmatic Nucleus)。SCN包含两万个左右的神经元,这些神经元通过神经递质耦合成网络,并保持同步振荡,从而产生统一且具有一定鲁棒性的周期信号。从复杂网络角度分析,SCN网络由神经元节点和神经元之间经过神经递质耦合形成的边组成。因此,如何确定神经元之间的耦合关系,怎么依据耦合关
学位
机床功能部件是机床维持正常工作必不可少的组成部分,而在机床工作过程中,若无法有效散热,这些功能部件生热所产生的热变形,对机床加工的精度将造成重要影响。因此,有效的散热方法对于机床高精度加工而言尤为重要。热管通过内部介质相变传热来带走热量,具有高导热、快速均温等特点,本文将热管运用于机床滚珠丝杠中,对热管滚珠丝杠的结构设计及散热性能展开理论和实验研究;基于密度法的流体传热结构拓扑优化技术,通过优化设
学位
伴随着超短脉冲激光加工技术及超低温技术的发展,学者们逐渐注意到传统的傅立叶定律无法准确地描述此类过程中的热传递行为,并将热量传递过程中存在的非扩散行为命名为非傅立叶效应。为此,学者们提出了诸多理论来修正实验与傅立叶定律之间的偏差,其中最为广泛采用的是以法国学者Cattaneo和Vernotte等人为代表的热传递弛豫时间理论(单相弛豫时间理论,SPL),在该理论中引入了弛豫时间的概念,使得原来的导热
学位
作为地球上储量最丰富的材料,金属氧化物具有稳定性好、易制备、环境友好、多价态等优点,在环境和能源相关领域得到十分广泛的应用。二维纳米金属氧化物(2D-NMOs)由于表面积大和电子、离子传输距离短,近年来受到极大关注。但非层状2D-NMOs的制备具有很大挑战,且应用过程中片层间的不可逆堆叠导致性能衰减。为了解决以上问题,本论文制备了一系列褶皱结构的NMOs,提出了普适性的制备方法。该方法结合氧化石墨
学位
物体识别技术已经广泛应用于人们的日常生活中,如百度AI识别、支付宝拍照识花、QQ浏览器拍照识物等。现有的拍照识别物体的技术多是利用物体的单个2D图像信息。这种方式受光照、视角、背景等影响较大。识别技术所训练的模型让计算机识别的仍是“2D”物体,无法识别、理解真实的三维场景。从二维图像得到关于真实三维世界的推论是计算机视觉的一大难点。随着3D扫描技术和虚拟现实技术的发展,真实物体的三维模型的质量不断
学位
密封是抑制汽轮机、航空发动机、燃气轮机及压气机等透平机械流体泄漏、提升机组运行效率的关键部件。迷宫密封由于其结构的可靠性以及良好的密封性能被广泛应用于各类透平机械。随着机组运行参数的不断提高,密封引起的流体激振问题日益突出。开展迷宫密封流体激振机理及抑制方法研究具有重要的理论意义和工程价值。首先,采用计算流体力学(CFD)方法,对迷宫密封流体激振机理展开研究。计算分析了进口压力、转子转速、密封齿数
学位
CO2水合物作为良好的新型环保储能介质,在蓄冷空调、气体分离、消防灭火及油气开采等领域逐渐引起关注,对其生成特性的研究也显得至关重要。但采用传统实验的方法对CO2水合物的生成特性进行研究存在着种种限制,更无法从微观角度探究其生长细节。因此,本文引入分子动力学模拟,从微观角度对CO2水合物的生成特性进一步分析。本文首先通过Materials Studio软件建立合理的体系模型,选用大型的并行运算软件
学位
随着材料学的日益发展,大量先进的功能表面不断问世,其中梯度能表面在传热传质、抗冻除冰、石油化工、航空航天等领域具有广泛的应用前景,近些年受到业界的广泛关注。梯度能表面主要有微结构梯度和化学梯度两种类型,在本文中,我们分别以铜和PDMS(聚二甲基硅氧烷)为基底,设计了微方柱、微方孔结构的浸润梯度表面,从静态特性、动态特性、黏附特性三个方向,对微结构梯度能表面上液滴的浸润性进行了研究。论文首先研究了几
学位
全球经济、人口增长带来的环境污染以及化石燃料的日益枯竭让人类社会面临着一系列的能源问题。寻求廉价、安全、清洁且可再生的新能源成为现代社会的共识。其中,可储可输的氢能是一种洁净的可再生能源。在近几十年,氢能作为解决当前人类面临困境的新能源,成为各个国家广泛研究的对象。光催化技术则利用无穷无尽的太阳能和半导体催化剂加速纯水裂解成氢气和氧气这一过程。但是由于半导体催化剂的禁带宽度和内部载流子复合,导致较
学位