【摘 要】
:
社区挖掘作为数据挖掘研究领域的一个热点,多年来研究内容主要基于同质网络进行分析。随着网络地不断发展,数据量不断增多,单一类型的对象已经不足以应对解决现实中的问题。
论文部分内容阅读
社区挖掘作为数据挖掘研究领域的一个热点,多年来研究内容主要基于同质网络进行分析。随着网络地不断发展,数据量不断增多,单一类型的对象已经不足以应对解决现实中的问题。为了能在纷杂的网络中获取有用的信息,异质网络(多类型网络)的社区挖掘成为研究的一个重要趋势。但由于异质网络的复杂性和多样性,其理论知识和算法研究并没有完全成熟,所以融入新颖的思想提高算法效率是一个具有挑战性的课题,这也是本文的主要工作。通过研究排名和聚类这两种重要的网络分析技术,本文提出了融合排名和聚类的异质网络社区挖掘算法框架。在异质网络中,该框架实现了目标类型对象的聚类和基于这些聚类的所有类型对象的排名信息。该框架基于初始的K簇,计算对象的相对排名;把属性对象的排名分布作为簇的特征,建立目标对象的混合模型,使每个目标对象用K维向量表示;接着在这个新的特征空间中,利用类中心向量法调整聚类,使聚类质量得到有效地提高。此过程不断迭代,迭代过程中的聚类和排名效果相互加强,直到聚类结果变化不大或者达到预定的迭代次数。最终,聚类结果更准确,并且排名结果更有意义。为了更好地理解算法的思想,本文提出基于2-类型的异质网络算法CluBRank (Cluster Based on Rank)进行解释验证。CluBRank重点引入两种排名函数,简单排名和权威排名。本文通过在真实数据集和模拟数据集上进行实验,将CluBRank与基于链接的传统算法进行比较,证明CluBRank聚类结果更准确。CluBRank有效地避免了传统算法中计算对象之间的相似度,验证框架是一种更有效率的解决异质网络社区挖掘的方法。而且,含有排名的聚类结果提供了更多的信息。
其他文献
随着Internet的广泛普及以及计算机网络技术的飞速发展,现在越来越多的商业业务是通过Internet应用平台来实现的。为了适应发展需要,越来越多的企业信息系统和电子商务系统使用
随着Internet的迅速发展,人们面对太多的信息无法选择和消化,淹没在繁杂的信息中,这种现象称为信息过载。Internet上信息资源分布的广泛性又给用户寻找感兴趣的信息增加了困难,用
Web服务组合重配置是当前服务组合及应用研究的热点问题之一。越来越多的企业开始在网络业务中使用Web服务组合,企业现有的服务组合很难满足应用环境以及业务过程等变化要求,阻
Internet的发展和应用的日益增多使现在的IPv4地址面临很快被耗尽的问题,因此IETF提出IPv6作为下一代网络的主要协议。IPv6的地址空间扩展为128位,对安全性和移动节点的自动配
近年来随着社会日新月异的进步和发展,信息传播与交流的范围也发生了翻天覆地的变化。形色各异的信息充斥在Internet上,人们在应用Internet的时候,很容易被海量信息冲昏头脑。这
在我国高等教育走向大众化的今天,建立教学质量评价体系,是保证教学质量的重要措施之一,本文根据目前高校教学的需求,并结合了教学评价发展的趋势,提出了多元化的评价模式、发展性
实时播放系统是数字电视系统的核心组成部分。本文在现有数字电视中间件平台上,设计并实现了一套完整的面向数字电视的实时播放系统,完成了数字电视节目实时播放与控制的功能,为
我国通信事业正在蓬勃发展,随着我国信息化进程的加快,通信保障已成为越来越迫切需要解决的问题。当电缆外皮损伤,老化有裂洞时,气体便会泄露,水分潮气经外皮进入电缆,使绝缘破坏,电
结构域是蛋白质的结构和功能区域,在蛋白质相互作用过程中发挥重要作用。近年来,已出现多种从结构域水平预测蛋白质间相互作用的方法,这些方法大多基于结构域对之间发生相互作用
随着计算机技术、网络技术和数据库技术的迅速发展,校园内部建立了比较完善的信息管理系统,如:办公自动化、邮件系统、财务系统、图书馆管理系统等,在学校运作中发挥了重要的作用