论文部分内容阅读
随着互联网上资源的不断丰富,越来越多的人们通过网络进行资源的搜索,共享,浏览和下载。在P2P对等系统中,用户的这些行为和需求体现得更加明显。在传统的方法中,人们通过关键词搜索的方式来搜索和获得资源。但是对于P2P文件共享系统Maze来说,其资源数量非常丰富,而资源的描述信息相对有限,存在文件名较短和虚假文件名现象,使得用户通过单一的关键词搜索方式不能准确的获得资源,或者缺少更好的找到自己感兴趣资源的途径。因此,在拥有海量资源的Maze系统中,迫切的需要为用户提供一种资源社区的分类展示系统,并对分类后的资源社区加以恰当的描述,使得用户能够通过一种直观的浏览和搜索方式,方便准确的从分类资源中获得自己感兴趣的资源。
本文提出了一个基于Maze系统中资源分布关系的资源社区发现算法,并设计和实现了Maze资源社区系统。该算法通过对Maze系统中资源分布关系的挖掘,将分散的资源聚集成紧密联系的资源社区,使得资源能够通过结构化的分类方式展示出来。同时,根据资源社区中所包含的文件名信息,提取出能够描述该社区特征的关键信息,作为资源社区的标识。Maze资源社区系统旨在为用户提供一种更好的获取资源的方式,该系统已投入实际运行。
论文的第一部分介绍了社区和聚类研究的相关工作,本文的工作平台-Maze文件共享系统,以及目前Maze系统在社区,个性化推荐和关键字提取方面所做的工作和存在的不足。随后,论文提出了基于分布关系的Maze资源社区的定义。论文的第二部分详细介绍了资源社区的分布式发现算法和资源社区描述信息提取算法的设计与实现。在分布式社区发现算法中,论文详细介绍了资源的初步筛选策略,局部资源社区发现算法,中央服务器资源社区合并算法和普通资源分类算法。分布式社区发现算法通过对海量资源进行分块,在多台机器上同时进行聚类计算,再将各个机器上得到的局部聚类结果传回到中央服务器进行合并,显著地缩短了海量数据的聚类时间,可以在资源集合中准确快速的发现资源社区。在提取资源社区描述信息的算法中,论文详细介绍了资源社区的关键词提取算法和实现。通过该算法,提取出能够标识资源社区特征,同时具有尽可能多语义信息的描述信息。论文的第三部分介绍了Maze资源社区系统的设计与实现。该部分详细阐述了系统的架构设计,数据库设计,以及具体模块的设计和实现。Maze资源社区系统通过Web方式,为用户提供了更好的浏览资源,使用资源社区,通过标签搜索等多种提高用户使用体验度的资源获取方式。
最后,论文对Maze资源社区发现系统的效果进行了综合的评测,并和已有的相关工作进行了对比,得到该系统在资源社区发现的效率和准确性,以及社区描述准确性上所获得的提高。同时,论文还分析了Maze系统中资源社区分布的一些特征。