基于邻域信息的聚类算法和社区发现算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:xy479977530
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据挖掘技术在各行各业的广泛应用,人们对这一领域的相关技术越来越关注。数据聚类和社区发现是数据挖掘领域中十分重要的两个课题,它们之间也有一些共性。聚类是指将数据对象分为若干个簇,使得簇内的对象关系紧密,而簇之间的对象关系疏远。社区发现可以认为是聚类思想在网络数据中的延伸,它是指将网络中的节点指派给若干个社区,使得同一个社区内的节点联系紧密,而来自不同社区的节点间联系比较疏远。目前已有大量的关于聚类算法和社区发现算法的研究工作。本文针对已有的经典聚类算法FDP中存在的不足,探索了邻域信息在聚类中的作用,然后提出了一种新的聚类算法NIDD。接着,将NIDD的思想推广到社交网络中,在引入基于邻域信息的模糊中心度和模糊隶属度的基础上,提出了一个新的社区发现算法FCFM。最后,将聚类算法FDP的核心思想推广到社区发现中,研究了基于邻域信息的模糊关系及其作用,提出了基于模糊关系的社区发现算法CDFR。  具体来说,本文工作主要包括以下3个方面。  (1)提出了基于邻域交集和密度差异的聚类算法NIDD。在分析聚类算法FDP的过程中,发现它在某些数据集上的效果并不理想。针对FDP的一些不足,提出了聚类算法NIDD。该算法的思想是:第一,在簇的扩展过程中会选择一个内部点作为参考点,然后考察参考点邻域内的所有点;如果参考点和待扩展点的密度变化较小,那么它们属于同一个簇,并且该待扩展点还可以继续扩展;反之,如果参考点和待扩展点的密度变化相对较大,那么该待扩展点被归为当前簇,但是该数据点不可以继续扩展。第二,如果参考点和待扩展点之间的k最近邻交集率很小,说明它们之间的公共邻居占据的比例很小,此时不管它们密度是否相似,它们会被划分在不同的簇中。实验结果表明了NIDD算法的有效性。  (2)提出了基于模糊中心度和模糊隶属度的非重叠社区发现算法FCFM。FCFM是一种无参数的社区发现算法,其主要思想是:第一,基于邻域信息的模糊中心度来组织网络中节点的处理顺序;第二,在一个社区中拥有最大的模糊中心度的节点被认为是这个社区的中心,社区从这个节点开始向外扩展;第三,在社区扩展的过程中,模糊隶属度被用来决定是否继续扩展当前社区。对比了FCFM和经典的社区发现算法在真实的网络数据集上的实验结果,实验结果验证了FCFM算法的有效性。  (3)提出了基于模糊关系的社区发现算法CDFR。首先,提出NGC(NearestGreaterCentrality)节点的概念。然后,引入了基于邻域信息的模糊关系的概念,并且给出了计算每个节点到其NGC节点的模糊关系的方法。这种模糊关系可以看做是节点对其NGC节点的依赖程度。依赖程度越小说明该节点的自治性越大,换句话说,该节点成为社区中心节点的可能性越大。最后,每个节点属于哪个社区取决于其NGC节点以及它们之间的模糊关系。实验结果表明,CDFR算法对于非重叠社区检测是有效的。  本文工作不仅在聚类方法研究方面具有参考价值,而且对于社交网络中的社区发现研究也具有参考价值。
其他文献
在通信系统全面数字化的趋势下,模拟对讲机也加速了向数字对讲机过渡的进程。专网通信领域内数字对讲机正以其强劲的优势逐步取代模拟对讲机。各个国际领先的数字对讲厂商也
由于数据量的不断增长,数据占用的存储空间越来越大。这给许多企业的存储系统的容量也带来了极大的挑战,另外数据的保存,备份,恢复的成本也越来越高。随着数据量的增加,数据
服务器已经被广泛应用于电信、银行、航天、气象、军事等领域。在这些领域中,服务器作为关键设备承担着主要的工作任务。但是无论是在航天、军事等国防领域还是在电信、银行
大型本体高效检索与使用是一个非常有意义且有待解决的问题。语义网发展到今天,本体数据集的规模都已经非常庞大,其中不可避免的存在不同程度的数据不一致。然而,对于本体的使用
随着无线通信、现代定位技术和移动计算等技术的飞速发展,以及众多具有跟踪定位功能的便携设备和机载设备的普及,人们收集、分析和利用移动对象位置信息的深度和广度得到了前所
Web离线应用由于其在网络断开的情况下仍能为用户提供良好的服务而成为当今的一个热点研究问题。许多著名公司和机构相继在自己的产品上发布了离线应用版本,如谷歌公司的Gmail
用户界面是用户和信息系统进行信息传递的接口,是系统信息架构和应用结构的最终可视化体现。同时,用户界面也是信息导航功能的主体,它为用户提供获取信息的途径,扮演着非常重
随着计算机技术的迅猛发展,虚拟现实技术已经被应用在很多领域,同时对图形生成的真实感和实时性两个方面都提出了极高的要求。对于静态的文物场景来说,采用预计算渲染技术能
近年来,进化多目标优化(Evolutionary Multi-objective Optimization,EMO)算法研究逐渐成为进化计算研究领域的一个重要内容。EMO算法一次运行就可以获得一组具有代表性的Par
移动机器人由于行动灵活、完成复杂任务能力强,在当今社会应用越来越广泛。移动机器人的自主导航功能,作为移动机器人是其最基本、最重要的功能,一直以来都被各领域研究者所关注