论文部分内容阅读
预测分类是数据挖掘中的一个重要的分支部分。它能够用来预测对象的数据标签。目前,数据分类技术在很多领域都有着广泛的应用,如银行中的风险评估,市场营销中的客户分类,文本检索分类等。
传统的分类算法主要是针对处理确定数据的情况。所谓确定数据是指数据集中的每一个数据样本的每一属性维度的值都是唯一确定的。处理确定数据分类问题的方法很多,如贝叶斯决策、SVM支持向量机、决策树、神经网络等等。
本文主要研究对被“污染”的噪声数据如何做预测分类模型的构造。在现实情况中,由于种种条件限制,所采集到的数据往往不是准确的值,而是加入了噪声的数据。在这种情况下,如何使用这些被扰动的噪声数据构造分类模型,对未知的准确数据进行分类从而使得分类精度尽可能增加,成为亟待解决的问题。
本论文选题就是研究针对处理这种噪声数据的分类模型构建方法。不同于传统的确定数据,噪声数据理论上来说是不确定的值。针对这种噪声数据,本文首先将其转换为一个范围数据对象,使得原始数据在理论上包围在范围数据对象之内。在这种情况下,这些范围数据每一属性的值不是一个唯一确定的值,而是具有确定上限值和下限值的范围值。在二维空间中,可以把这种数据对象形象的比作“框数据”。在处理这样的范围数据分类问题上,本文共使用三种不同的方法构造分类模型,首先分别采用均值法或者采点法。随后,本论文着重提出了框分类算法KEM,对范围数据推导积分公式,构造基于EM算法的框数据的有限混合模型,然后构造朴素贝叶斯分类器做分类预测。实验表明,框分类算法对噪声数据的模型构建具备良好的分类稳定性。