基于主动学习方法的数据失衡问题及分类模型隐私保护机制的研究

来源 :厦门理工学院 | 被引量 : 0次 | 上传用户:zhangyinalv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能及信息采集技术的发展,信息资源呈现爆炸式增长,但是这些数据往往表现出分布高度失衡的问题。更严重的是,由于传统的分类器大都是针对平衡数据进行分类的,在分类的过程中考虑的是整体准确率,因此在处理失衡数据时,分类模型往往更倾向于分类多数类样本,在一定程度上忽略了少数类样本的准确率,导致模型在少数类样本上的分类结果很差。与此同时,许多数据本身包含隐私信息,如医疗数据等,使用这些数据训练出来的模型可能包含一些训练数据的敏感信息,攻击者或黑客可以以直接或间接的方式来揭露这些信息,导致隐私信息外泄。
  为了减缓这些问题带来的影响,在研究了大量传统失衡数据处理方法和隐私保护方法的基础上,本文针对可穿戴设备的医疗心电数据提出了相应的算法。
  首先,为了能够快速、有效的处理失衡数据,本文提出了一种基于贝叶斯和信息熵的失衡数据主动平衡方法,该方法能够尽可能多的保留多数类样本中信息丰富、有价值的数据,去除信息含量少的次要数据,而且整个过程的时耗短。
  其次,为了能够减少分类过程中的时耗,本文又提出了一种基于决策树和熵的失衡数据主动分类方法。该方法将失衡数据的平衡处理过程和分类过程合二为一,在失衡数据的平衡处理之后不需要重新训练新的分类器,达到减少时耗的目的。
  最后,为了保护隐私数据分类模型的隐私信息,本文提出了两种隐私保护分类方法,一种是使用传统的机器学习算法随机森林,决策树和PATE(Private Aggregation of Teacher Ensembles)框架。另一种是基于修改的卷积神经网络。这两种隐私保护方法满足差异隐私保护的要求,可以更好地保护私人信息,而无需设置特定的假设攻击和背景知识。
  所提出方法在九种UCI标准数据库数据集和PhysikalischTechnischeBundesanstalt(PTB)心电诊断数据中,主动平衡和分类方法在G-mean,F1度量,准确度,处理时间上获得了优于传统方法的结果;隐私保护方法分别能够加入60和120的噪声尺度,提供更好的隐私保护性能,实验结果证明了所提出方法的有效性和可靠性。
其他文献
当今世界,人才竞争格局呈现新的变化,对人才生态环境的重视与涵养正成为众多国内外高科技园区的共同选择,雄安新区亦不例外。通过对雄安新区人才生态环境的指标设计与量化测评,可得出如下结论:雄安新区人才生态环境建设正处于蕴育生机的原生态阶段,形成了具有地域特色的人才种群和群落,但外来的高端高新产业人才群落尚未形成,与人才成长、成熟和再发展密切相关的教育、产业、公共服务环境对
以聚己内酯(PCL)为反硝化电子供体和生物载体,开发出具有脱氮和过滤功能的缓释碳源滤料滤池,并以城市污水处理厂二级出水为原水进行深度脱氮试验,结果表明,在20.1~22.0℃的条件下,进水总氮(TN)质量浓度30.0mg.L-1,HRT为0.5h,反硝化负荷达54.0mg.(L.h)-1时,TN的去除率最高可达98.9%;出水总有机碳(TOC)为6.5~8.4mg.
图像跟踪注册技术是实现移动增强现实系统非常重要的基础技术,也是决定移动增强现实系统性能的关键。由于移动增强现实的跟踪注册在实际应用中存在系统延时、图像无法进行有效识别的问题,要研究一种适应于移动增强现实系统的算法成为学术研究中的重点和难点。本文主要研究工作如下:  (1)针对图像无法有效识别的问题,提出了基于双边滤波算法的ORB(Oriented FAST and Rotated BRIEF)特征
近些年来,无人机因其操作方便、成本低廉和机动性高等特点受到了国内外的广泛关注,在军工以及商业等领域得到了大规模的应用,随着快递行业的迅猛发展和用户对快递的极大需求,人们对快递的时效要求越来越高,使得无人机在快递行业有着广阔的前景。因此,国内外各大物流公司都竞相研究开发快递无人机。自动巡航技术是快递无人机的核心和关键技术之一。本文以快递无人机的自动巡航问题为研究对象,在常规蚁群算法(ACO)的基础上
学位
非遗是一种带有温度的记录与见证。上海市嘉定区封浜高级中学在弘扬传统文化、建设非遗课程中,组织学生讲述非遗故事,掌握非遗技艺,感受非遗文化,促使学生感悟到中华优秀传统文化的博大精深,领会中华传统文化观与审美意境,形成正确的世界观、人生观与价值观,从而提升学校整体育人功能。
非接触激光测径方法大致分为四种直径测量方法:激光多普勒测径法、激光衍射测径法、投影成像测径法、激光扫描测径法,而激光扫描测径方法是现代工业生产在线测量用得较多的一种。激光扫描测径系统主要是以光学几何原理为基础设计的,激光具有较高的稳定性、便捷的测量及高精度的测量特点,与计算机技术结合,可以通过上位机实现智能控制测量数据。激光扫描测径仪具有非接触式、快速、精度高等特性,经常使用在现代工业生产中各种直
荧光磁粉检测是一种比较成熟的工业无损检测方法,主要用于检测铁磁材质的工件表面或近表面缺陷,该方法具有操作简单、检测灵敏度高和成本低等优点,被广泛应用于铁铸工件的质量检测过程中。但是目前荧光磁粉裂纹缺陷检测方法主要还是以人工目视的方式对工件表面进行检查判断,这种检测方式除了效率低,还会因工作人员疲劳而产生诸漏检、错检等问题,并且工作人员长期在紫外光照环境下也不利于人的身体健康。同时,对于大尺寸、复杂
学位
大规模电动汽车无序接入电网会对当前电网造成很大影响,尤其电力负荷高峰期接入大量电动汽车会导致负荷峰上加峰,不利于电网安全稳定与经济运行。因此,为了减小电动汽车充电负荷对电网造成的影响,有必要提出有效的充电负荷控制策略。本文考虑配电变压器容量、用户充电需求等约束条件,研究电动汽车充电负荷的有序控制策略,主要目标包括住宅小区负荷特性的峰谷差最小和实现用户充电费用最少。  首先,分析动力电池的充电特性、
学位
在迈向“中国制造2025”的过程中,仓储物流作为物品流通的载体、电子商务的血液,而自动导引运输车(Automated Guided Vehicle,AGV)作为离散型物流管理系统的连接环节,必将得到广泛应用。随着柔性制造和自动化立体仓库的兴起以及高精度传感器的应用,传统的导航方式已不能满足当今智能仓储物流的发展需求。因此,AGV移动平台能否实现自主定位与导航问题是亟待解决的。  现有的AGV移动平
LED作为一种新型照明光源,具有发光效率高、使用寿命长、显色性好、绿色环保和安全可靠等优点。而LED照明是一种低压安全的照明方式,需要设计合理的LED驱动电源。开关电源的转换效率高,体积小是LED驱动电源的首选。同时,LED具有恒压负载特性,其驱动电源一般采用恒流源。因此,本文在对LED驱动技术探讨的基础上,对LED驱动电源进行深入研究。  论文对LED驱动电源的研究现状和发展做了分析总结,简要介