论文部分内容阅读
随着人工智能及信息采集技术的发展,信息资源呈现爆炸式增长,但是这些数据往往表现出分布高度失衡的问题。更严重的是,由于传统的分类器大都是针对平衡数据进行分类的,在分类的过程中考虑的是整体准确率,因此在处理失衡数据时,分类模型往往更倾向于分类多数类样本,在一定程度上忽略了少数类样本的准确率,导致模型在少数类样本上的分类结果很差。与此同时,许多数据本身包含隐私信息,如医疗数据等,使用这些数据训练出来的模型可能包含一些训练数据的敏感信息,攻击者或黑客可以以直接或间接的方式来揭露这些信息,导致隐私信息外泄。
为了减缓这些问题带来的影响,在研究了大量传统失衡数据处理方法和隐私保护方法的基础上,本文针对可穿戴设备的医疗心电数据提出了相应的算法。
首先,为了能够快速、有效的处理失衡数据,本文提出了一种基于贝叶斯和信息熵的失衡数据主动平衡方法,该方法能够尽可能多的保留多数类样本中信息丰富、有价值的数据,去除信息含量少的次要数据,而且整个过程的时耗短。
其次,为了能够减少分类过程中的时耗,本文又提出了一种基于决策树和熵的失衡数据主动分类方法。该方法将失衡数据的平衡处理过程和分类过程合二为一,在失衡数据的平衡处理之后不需要重新训练新的分类器,达到减少时耗的目的。
最后,为了保护隐私数据分类模型的隐私信息,本文提出了两种隐私保护分类方法,一种是使用传统的机器学习算法随机森林,决策树和PATE(Private Aggregation of Teacher Ensembles)框架。另一种是基于修改的卷积神经网络。这两种隐私保护方法满足差异隐私保护的要求,可以更好地保护私人信息,而无需设置特定的假设攻击和背景知识。
所提出方法在九种UCI标准数据库数据集和PhysikalischTechnischeBundesanstalt(PTB)心电诊断数据中,主动平衡和分类方法在G-mean,F1度量,准确度,处理时间上获得了优于传统方法的结果;隐私保护方法分别能够加入60和120的噪声尺度,提供更好的隐私保护性能,实验结果证明了所提出方法的有效性和可靠性。
为了减缓这些问题带来的影响,在研究了大量传统失衡数据处理方法和隐私保护方法的基础上,本文针对可穿戴设备的医疗心电数据提出了相应的算法。
首先,为了能够快速、有效的处理失衡数据,本文提出了一种基于贝叶斯和信息熵的失衡数据主动平衡方法,该方法能够尽可能多的保留多数类样本中信息丰富、有价值的数据,去除信息含量少的次要数据,而且整个过程的时耗短。
其次,为了能够减少分类过程中的时耗,本文又提出了一种基于决策树和熵的失衡数据主动分类方法。该方法将失衡数据的平衡处理过程和分类过程合二为一,在失衡数据的平衡处理之后不需要重新训练新的分类器,达到减少时耗的目的。
最后,为了保护隐私数据分类模型的隐私信息,本文提出了两种隐私保护分类方法,一种是使用传统的机器学习算法随机森林,决策树和PATE(Private Aggregation of Teacher Ensembles)框架。另一种是基于修改的卷积神经网络。这两种隐私保护方法满足差异隐私保护的要求,可以更好地保护私人信息,而无需设置特定的假设攻击和背景知识。
所提出方法在九种UCI标准数据库数据集和PhysikalischTechnischeBundesanstalt(PTB)心电诊断数据中,主动平衡和分类方法在G-mean,F1度量,准确度,处理时间上获得了优于传统方法的结果;隐私保护方法分别能够加入60和120的噪声尺度,提供更好的隐私保护性能,实验结果证明了所提出方法的有效性和可靠性。