【摘 要】
:
随着计算机与网络技术的普及,当今社会的信息量随指数形势增长,我们进入了信息爆炸的时代,每时每刻都有海量的数据产生,比如城市交通数据、商品价格数据、人们的消费数据,上
论文部分内容阅读
随着计算机与网络技术的普及,当今社会的信息量随指数形势增长,我们进入了信息爆炸的时代,每时每刻都有海量的数据产生,比如城市交通数据、商品价格数据、人们的消费数据,上网数据等等,面对这些数据,背后的潜在价值是十分巨大的,这时我们就需要利用数据挖掘技术来发现这些数据中隐藏的信息与价值。聚类分析就是数据挖掘技术中的一种十分重要的技术手段。本文对目前聚类集成的关键技术进行研究,提出了一种基于群体智慧的聚类集成方法。具体工作概括为以下几个方面:第一,本文对机器学习领域中的聚类集成算法进行了深入的研究,对聚类集成的研究现状及相关理论方法进行了详细阐述说明,并且分析各方法特点和其存在的不足。第二,提出基于多链接特征子集的聚类集成算法。首先针对多维数据集进行聚类集成,提出使用独立特征子集选择算法,应用关联性进行特征属性选择,缩减维度,提高聚类集成结果的性能,然后进行多链接集成,得到最终结果。在标准数据集上进行实验,根据实验数据结果验证该方法可行和有效性。第三,结合社会科学中的群体智慧概念,提出了一种基于群体智慧框架的簇连接聚类集成算法。在满足群体智慧框架的四个标准下,聚类集成的性能将有所提升,在标准数据集上进行了实验验证,实验结果表明本文所提的算法与其它聚类集成算法相比,能够提高聚类集成结果的性能,具有优越性。第四,结合服务聚类,提出了一种基于群体智慧框架的智能服务聚类算法,将聚类集成和群体智慧应用于服务聚类中,通过爬到的Web服务数据集设计实验,验证所提方法的可行性与优越性,实验结果表明相较于现有的服务聚类算法,基于群体智慧框架的智能服务聚类算法能有效提高服务聚类的查全率和纯度。
其他文献
互联网技术的飞速成熟和发展,带来的是多媒体数据量的爆炸式增长,这导致很多应用场景都无法通过最近邻检索来降低巨大的计算消耗。因此,近年来,近似最近邻检索越来越受到人们的关注,特别是很多基于哈希的近似最近邻检索。这些哈希方法在保持原始数据相似性的前提下,首先将原始数据映射到海明空间,然后在海明空间进行异或操作。这样可以极其有效地提高效率和降低存储空间的消耗。为充分利用类型丰富的多媒体数据,越来越多的跨
研究背景0-6岁的儿童正处于生长发育的关键时期和快速增长阶段,儿童时期的健康成长,为成年以后的健康和发展打下良好的基础;同时,儿童的生长发育水平还是一个国家经济社会发展与文明进步的重要标志,研究儿童生长发育可为提高我国民众的健康素质与水平奠定基础,提升未来的人力资源质量,降低因生长发育不良所致疾病的卫生资源消耗,提高社会资本产出的价值与效益和国民经济整体运行的质量。因此,促进儿童发展,对于全面提高
地震勘探是石油、天然气勘探重要手段,地震勘探随机噪声压制是地震勘探信号处理不可或缺的组成部分。如何从强噪声、低信噪比背景下提取微弱的有效信号一直以来都是噪声压制
近年来随着科学技术水平的不断提高,对核环境起重机的可靠性要求越来越高,但目前国内还没有深入研究潜在的故障模式、故障机制和设计过程中的可靠性指标要求对核环境起重机的
推荐算法目前在很多应用中都广泛涉及,如淘宝网站可以根据用户的购买记录和浏览记录为用户推荐商品。好的推荐系统不仅可以节省用户的浏览时间,更能及时为商家进行宣传。简单的说,对用户进行推荐就是基于用户的以往记录进行分析,从众多记录中分析出用户的潜在偏好,根据用户的特征对用户进行针对性的推荐。在推荐系统中,最重要的就是对用户的特征进行提取,得到用户特征的过程实际上也是一种推荐过程。特征提取目前在很多领域中
不管是哪个学科都需要作业来加以辅助教学,新课程改革要求小学数学教师要不断的更新自身的教育理念,重视小学数学作业对学生能力提升和知识巩固的重要作用。小学数学作业的设
软件缺陷预测是一项重要的质量保证技术,它通过利用软件仓库中的历史数据和已经发现的相关缺陷信息,来预测软件模块中可能存在的缺陷。但是,大多数的缺陷预测技术,都假设有大
高校思政课是落实立德树人的根本任务的关键课程。为贯彻落实《国家中长期教育改革和发展规划纲要(2010—2020年)》和《教育信息化十年发展规划(2011—2020年)》全国各高校的
利用数显拉压力计对国家果树种质郑州葡萄圃4个种群的600份葡萄种质资源的耐拉力和耐压力特性进行了鉴定评价,对其果柄耐拉力和果实耐压力按具体数值范围划分了不同的等级。
近年来,基于位置的社交网络(LBSN)得到迅速地发展,如Foursquare,Whrrl,Facebook Places。因为兴趣点(POI)推荐可以帮助用户探索新的地方以及协助第三方业务提供个性化的服务,