不完备数据FCM聚类和离群点检测方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:dashanLau
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的迅猛发展,各行各业产生的数据量越来越大,对海量数据进行分析处理获得有用的模式和对未知数据进行预测都成为各界关注的热点。模糊C均值聚类(FCM)是一种经典的聚类方法,尽管FCM及其改进的方法已被广泛地应用于很多领域,但在处理不完备数据聚类问题和类不平衡数据的离群点检测问题时仍存在很多不足。现有的不完备数据聚类方法主要有两种。一种是对数据集聚类之前直接去掉含缺失值的数据对象。该方法减少了数据量,但破坏了数据的结构和完整性。另一种是利用部分距离计算数据对象间距离。该距离仅考虑了已知属性值间的差异性。如果两个数据对象对应属性值其中之一未知,则其部分距离与两个相同数据对象(无缺失值)间的距离相等。显然,这种处理方法不能获得准确的聚类结果。本文在FCM聚类方法的基础上,通过构造不完备数据的邻域模型,提出了不完备数据聚类方法。为了解决类不平衡数据的离群点检测问题,提出了一种新的基于聚类的离群点检测方法。具体研究内容如下。针对模糊C均值聚类方法不能很好地处理含有缺失值的不完备数据聚类问题,本文通过构造一种有效的缺失数据邻域信息模型,并将其与优化完整聚类方法相结合构造了一种新的聚类目标函数,提出了一种基于邻域信息的不完备数据模糊C均值聚类方法(NFCM)。该方法将缺失值作为额外变量,运用拉格朗日乘数法,通过三层交替迭代方法,在估计缺失值的同时对数据进行聚类。将NFCM方法与四种常用的不完备数据聚类方法在三个UCI数据集上进行对比实验。实验结果表明,NFCM方法不仅能有效地预测缺失值,还大大提高了不完备数据的聚类效果。针对基于聚类的离群点检测方法对类不平衡数据无法准确检测离群点的问题,本文通过将类信息和类分散度引入到邻域模糊C均值聚类中,构造了一种处理类不平衡数据的聚类方法。该方法不仅考虑了类内数据对象分布不均匀问题,而且还能有效地解决类不平衡数据聚类问题。将数据对象及其邻域点的所属隶属值融入到局部离群点检测方法中,提出了一种基于分散度模糊C均值聚类的离群点检测方法(OCWFCM)。该方法给数据集中每个数据对象一个局部离群得分度量,按照top N原则,将离群得分最大的前N个数据对象作为离群点。将OCWFCM方法与常用的离群点检测方法进行对比实验,仿真实验表明了OCWFCM方法的有效性和优势。
其他文献
浮游生物大部分以浮游的形式自由漂浮在水生环境的表面,湖泊、河流、沼泽和海洋.浮游植物是浮游生物群落的植物形式,作为最基本的食物资源位于水生食物链的第一营养基.浮游动
传染病模型是生物数学中受到广泛关注与研究的一类模型,对传染病问题建立数学模型并加以研究具有重大的实际意义,不仅可以为传染病学的研究提供理论依据和数据支撑,还可以帮助制
外代数是定义在一个向量空间V上的一类非常重要的代数,外代数及其上的模具有很强的应用背景.近年来,对外代数及其上的模有一系列的研究,而模的扩张问题对于模的结构的研究是
众所周知,微分方程的求解是一件非常有意义的事情,而著名的Riccati方程不仅在历史上有重要的应用,它在现代控制论和向量场分支理论中也常有出现。由于工程技术希望尽可能地找
传感器节点是构成无线传感器网络的基本单元,由于节点体积微小且能量资源、计算能力以及通信能力都十分有限,因此降低节点能耗是无线传感器网络设计中的重要问题.本文首先分析了
设H是一个希尔伯特空间,E是一个巴拿赫空间,本文建立一个关于随机积分的相关理论,该随机积分是关于L(H,E)-值函数的积分,该函数与H-cylindrical刘维尔分数布朗运动有关,用β来表示H
本文引入逆风参数考虑包含基本面分析者,顺风者和逆风者三类交易者的市场,鉴于市场中的交易者不是依据不同类型交易策略所获得的收益信息同步更新交易策略的,本文引入每个时段有
外代数是一类有着很强应用背景的代数,在张量分析,微分几何,代数几何,拓扑学等领域有着广泛的应用。 Eisenbud在[1]中研究了外代数上的周期模。郭及学生用不同的方法研究了这
拓扑指标在化学,药理学等方面的研究中发挥着重要的作用[1,2].上世纪中叶以来,研究者们提出了各种各样的拓扑指标(参见[3]),其中以1975年由Milan Randi(c)[4]提出的Randi(c)
空间计量经济学是计量经济学的一种重要的现代分支,产生了许多重要的理论和实践成果.空间计量理论通过空间权重矩阵将空间因素对经济现象的影响的模式引入到模型中.本文的目