基于EM算法的噪声数据分类模型构造问题研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:michel_lin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
预测分类是数据挖掘中的一个重要的分支部分。它能够用来预测对象的数据标签。目前,数据分类技术在很多领域都有着广泛的应用,如银行中的风险评估,市场营销中的客户分类,文本检索分类等。   传统的分类算法主要是针对处理确定数据的情况。所谓确定数据是指数据集中的每一个数据样本的每一属性维度的值都是唯一确定的。处理确定数据分类问题的方法很多,如贝叶斯决策、SVM支持向量机、决策树、神经网络等等。   本文主要研究对被“污染”的噪声数据如何做预测分类模型的构造。在现实情况中,由于种种条件限制,所采集到的数据往往不是准确的值,而是加入了噪声的数据。在这种情况下,如何使用这些被扰动的噪声数据构造分类模型,对未知的准确数据进行分类从而使得分类精度尽可能增加,成为亟待解决的问题。   本论文选题就是研究针对处理这种噪声数据的分类模型构建方法。不同于传统的确定数据,噪声数据理论上来说是不确定的值。针对这种噪声数据,本文首先将其转换为一个范围数据对象,使得原始数据在理论上包围在范围数据对象之内。在这种情况下,这些范围数据每一属性的值不是一个唯一确定的值,而是具有确定上限值和下限值的范围值。在二维空间中,可以把这种数据对象形象的比作“框数据”。在处理这样的范围数据分类问题上,本文共使用三种不同的方法构造分类模型,首先分别采用均值法或者采点法。随后,本论文着重提出了框分类算法KEM,对范围数据推导积分公式,构造基于EM算法的框数据的有限混合模型,然后构造朴素贝叶斯分类器做分类预测。实验表明,框分类算法对噪声数据的模型构建具备良好的分类稳定性。
其他文献
近年来,随着因特网的不断发展和VoIP技术的逐渐成熟,基于IP网络的数据通信业务已经逐步和传统的语音业务相融合,这一融合具有巨大的市场潜力和广阔的发展前景,但也面临一定的技术
当前移动互联网技术飞速发展和快速推进,推动了移动终端的综合性能快速增加、4G网络商业化部署推进与终端设备功能逐步完善,推动终端用户指数级增加,同时终端用户对移动流媒体需
词作为语言的基础,具有相对的稳定性。但是语言是不断往前发展的,作为语言的一种成分,词又具备着语言的发展变化性。随着互联网的发展,信息成指数级增长。在网络这样特殊的环
构建面向语义网的本体,一直以来都是一项系统要求高,投入量大的项目工程,通过对网络环境中已存在的本体进行关联和映射,以及增强其动态学习功能,可以最大限度地重用已有本体,同时可
对等网络是一种与传统C/S模式不同的新型网络。网络中的每个节点既充当服务器,为其他节点服务;同时也是客户机,享受其他节点提供的服务。对等网络从结构上一般分为结构化对等网
随着语义Web的发展,本体技术受到了越来越广泛的关注。如何帮助用户有效地获得相关本体,提高本体重用度和开发效率成为一项重要的研究课题。本文将着重对本体搜索中的核心问
作为密码体系安全手段的重要补充,信任管理在解决无线传感器网络中的内部攻击,识别恶意节点,滤除错误数据,提高系统安全性、可靠性和公平性方面有着显著优势。本文讨论并分析了现
无线传感器网络是在传感器硬件以及普通网络不断发展下诞生的相互融合的高新技术产业,是一种全新的数据感知、采集、传输和处理模式。无线传感器网络不仅能够在军事战争、应急
近年来无线网络通信技术取得了卓越的发展,为无线多媒体网络用户提供了更好的用户体验。在无线多媒体网络中基于不同用户的需求合理的分配资源以提供良好的服务质量保证(QoS)
软件定义网络(Software Defined Network,SDN)通过控制层与数据层的解耦,利用集中式的控制器对网络设备进行可编程化管理,实现对网络资源的灵活配置。然而,随着SDN网络的发展,需要采