【摘 要】
:
当前,我们所处的时代数据爆炸式增长,是一个名副其实的大数据时代,商业交易记录、社交网络信息等等每天都产生海量数据,而这些数据的利用率相当低,从中发掘出有用的信息指导
论文部分内容阅读
当前,我们所处的时代数据爆炸式增长,是一个名副其实的大数据时代,商业交易记录、社交网络信息等等每天都产生海量数据,而这些数据的利用率相当低,从中发掘出有用的信息指导来生产生活,将会加快推动现代社会的进步。因此对这些数据进行挖掘意义重大。因为现实世界中的数据并不都是单一型的,往往都是复杂的混合型数据,因此近年来对混合属性数据的研究日益增多,且由于数据的增长是无限的不会停止的,这就导致了数据流的产生,所以又出现了混合属性数据流聚类研究这个新的课题。对混合属性数据和混合属性数据流的研究由于开始比较晚,在混合属性聚类融合和数据流的聚类方面还有研究的空间。针对上述等方面的问题,本文的主要工作和成果如下:1.本文首先介绍了数据挖掘的相关概念,对它的任务和一些相关技术做了简要介绍,接着具体介绍了本文的研究重点一一聚类。对聚类进行了概述,介绍了聚类的定义、数学模型,以及一些基础的聚类算法,然后引出混合属性聚类的相关介绍。2.在研究处理混合属性聚类算法时,针对原有混合属性聚类算法,很难同时兼顾数值属性和分类属性,本文采用了聚类融合算法,对数值属性采用改进的相对密度聚类算法;对于分类属性,利用信息熵的客观性,提出了基于Distance-熵的分类属性聚类算法。大多数聚类融合算法的计算复杂度较高,针对这个问题提出了基于交集的聚类融合算法,改进了聚类融合的规则,设置了使交集元素比θ来指导类的合并和修剪,计算简洁有效。3.最后将聚类融合算法作为初始化算法扩展到数据流,提出了基于距离和信息熵的混合属性数据流聚类算法,在提高聚类准确率和时间复杂度方面具有一定效果。
其他文献
作为一项与多学科交叉的世界前沿技术,无线传感器网络备受人们关注。无线传感器网络具有高度的自组织特性、可信性、动态性和抗破坏性等特点,但由于传感器节点的电源能量是非常
全球互联网迅猛发展,互联网经济主流模式——电子商务随之风声雀起,企业在开展电子商务中对信息处理有着较高的要求,客观上要求实现企业管理系统集成,其业务主旋律必然转向企业信
随着计算机网络应用的不断发展,网络安全问题也日益突出。越来越多的安全技术被应用到网络安全领域。入侵检测是网络安全体系中新兴的一门技术,它是一种主动的防御技术,也是
无线传感器网络是近年来发展迅速并拥有广阔前景的技术。但能量问题一直制约着无线传感器网络的大规模、长时间应用,是目前该领域研究的重点。通过采集环境能量,尤其是通过采
Web2.0技术将世界带入了一个社交网络时代,社交网络如中国的新浪微博,Facebook,MySpace,Twitter等都已经成为极具影响力的平台。SNS(SocialNetworking Services)结合了用户群和信息,
随着Internet的飞速发展,互联网已经成为人们获取新闻信息的一种重要方式,但是如何更便捷、更全面、更准确地获取相关新闻已成为一个论题。传统的单一网络媒体已经很难满足用户
传统的信息安全策略已经不能满足现在社会对安全的要求,可信计算是信息安全发展的需要,越来越受到广泛的重视。同时,分布式系统也正处于发展中,许多机制有待进一步研究和完善。我
本文以协同思想为指导,阐述了如何将J2EE相关的技术应用到远程答疑系统中,实现远程答疑系统的协同性、稳定性、安全性和可扩展性。 本文根据国内外远程答疑系统的发展背景和
近年来随着网络技术和网络服务的飞速发展,XML(eXtensible MarkupLanguage)标记语言逐渐被社会各界广泛接受,成为一种跨平台、跨语言的数据交换和数据描述的标准。大量XML数据
随着移动通信行业的高速发展,移动通信用户迅速增长,移动设备已成为人们不可或缺的工具,同时随着移动设备功能的不断增强,它的使用范围也从单纯的打电话、发信息扩展到了企业、银