基于连通性的离群检测与聚类研究

被引量 : 0次 | 上传用户:zjj1993930
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群检测和聚类是数据挖掘的两个重要研究领域。虽然其相关技术已经非常成熟,但仍然有许多难题未能较好解决。本课题希望通过基础理论的研究继续推进离群检测和聚类的发展,并解决当前研究和应用中的部分难题。具体的工作为:从数据关系描述出发,研究离群检测和聚类的数学模型,进一步论证和优化其解方案。数据关系描述是数据挖掘领域中的基础性研究。在实际应用中,关系描述的好坏往往直接影响数据挖掘的结果。因此,论文首先研究了关系描述——不相似性度量,并完善了相关理论。欧式距离是最为常用的不相似性度量。然而,此度量无法准确描述数据之间的不相似性,甚至有时候会给出错误的不相似性描述。在此基础上,本文提出了基于邻域的不相似性度量以及基于连通性的不相似性度量。新度量分别综合了密度信息和连通性信息,能较好地反映数据之间的不相似性。为便于使用,文中还对基于邻域的不相似性度量进行了理论分析,获得其均匀分布估计值;对连通不相似性进行理论推导,获得了基于最小生成树路径不相似性描述。基于连通性考虑,论文提出了基于第k个最相似邻居的离群检测算法,即根据第k相似邻居的连通性度量离群程度。此第k相似邻居的连通性对应递闭包不相似性第k小值;通过证明,该第k小值也等于Prim最小生成树算法的第k个被合并点的连通性。所以,文中将离群性定义为考察点与第k相似邻居之间的最小生成树路径上的最大边。另外,提出的离群检测算法还考虑了密度因素,因此适用于任意密度、任意形状的数据,且在局部离群点和簇离群点检测方面表现出较好性能。连通性也是聚类需要考虑的重要因素。因此,论文提出了基于连通性的划分模型以及相应的聚类算法。该模型能确保在多项式时间内最小化代价/损失函数,即在多项式时间内获得理论上的最优划分。相应的聚类算法适用于任意流形的数据。尤其对满足约束的数据(簇内连通性高于或等于簇间连通性),其聚类效果尤佳。另外,通过子簇划分,可极大减少时间复杂度,且能在高概率下保持理论最优划分。尤其在图像分割应用中,改进后的聚类算法的理论时间可远低于平方级,且保持较好的分割效果。
其他文献
移动学习与网络学习相比较而言,摆脱了时空的限制,学习者能够根据自己的时间和地点支配自己的学习,为学习带来了新的生机,被认为是未来发展不可缺少的一种学习方式。然而,移动学习
目的:观察分析慢阻肺汤联合康复训练治疗慢阻肺的临床疗效.方法:选取于2013年1月-2014年1月来院治疗的慢阻肺患者78例作为研究对象,按治疗方法的不同,分为对照组和观察组,每组
当计算机技术、网络技术及无线通信技术被引入教育教学领域,使得教育、学习不仅在方式上同时又在理念上都发生了相应的变革。网络以惊人的速度发展的同时也在改变着人们的学习
NF公司是一家系统集成企业,本文主要研究的是应采取何种人力资源管理策略,成功完成公司的转型,强化和提升竞争优势。系统集成企业作为信息技术服务产业中的新兴力量,正在展现出强
国际河流治理中,分配领域一直是各流域内难以产生合作的领域。从二十世纪五十年代开始,各流域围绕分配问题的争议开始不断显著。其中,尼罗河流域、两河流域、恒河-雅鲁藏布江流
当今社会,谁掌握了高新技术产业,谁就掌握了未来经济发展的主动权。高新技术企业的发展壮大,不仅可以创造更多的就业机会,一定程度上缓解我国就业难的局面,还可以优化我国经济产业
高速滑动电接触是一种动态电接触,在高速电气化铁路系统、航空航天等领域有着广泛的应用。在动态电接触中,发生在接触区域的机械电气等物理现象极其复杂,接触表面温度作为描述滑
唐钢MES系统是在认真吸取国内外钢铁企业先进的经验的基础之上,结合唐钢的实际情况,建立起来的一套生产制造执行系统。该系统包括生产、物流、质量、轧辊、库存等管理内容,满足
[目的]焦炉逸散物(COE)是主要的工业和环境污染物,其中含有大量致癌和致突变的多环芳烃(PAHs)。外源化学物经吸收后进入血液系统,有可能引起血细胞的损伤。但目前对于COE致血
本文对2002-2016年期间SSCI期刊Language and Literature发表的相关论文进行了元整合分析,廓清两者在研究目标、对象、理论和方法上的异同和联系。研究发现,西方认知文体学与