基于资源分布关系的Maze资源社区发现系统

来源 :北京大学 | 被引量 : 0次 | 上传用户:tmd632
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网上资源的不断丰富,越来越多的人们通过网络进行资源的搜索,共享,浏览和下载。在P2P对等系统中,用户的这些行为和需求体现得更加明显。在传统的方法中,人们通过关键词搜索的方式来搜索和获得资源。但是对于P2P文件共享系统Maze来说,其资源数量非常丰富,而资源的描述信息相对有限,存在文件名较短和虚假文件名现象,使得用户通过单一的关键词搜索方式不能准确的获得资源,或者缺少更好的找到自己感兴趣资源的途径。因此,在拥有海量资源的Maze系统中,迫切的需要为用户提供一种资源社区的分类展示系统,并对分类后的资源社区加以恰当的描述,使得用户能够通过一种直观的浏览和搜索方式,方便准确的从分类资源中获得自己感兴趣的资源。 本文提出了一个基于Maze系统中资源分布关系的资源社区发现算法,并设计和实现了Maze资源社区系统。该算法通过对Maze系统中资源分布关系的挖掘,将分散的资源聚集成紧密联系的资源社区,使得资源能够通过结构化的分类方式展示出来。同时,根据资源社区中所包含的文件名信息,提取出能够描述该社区特征的关键信息,作为资源社区的标识。Maze资源社区系统旨在为用户提供一种更好的获取资源的方式,该系统已投入实际运行。 论文的第一部分介绍了社区和聚类研究的相关工作,本文的工作平台-Maze文件共享系统,以及目前Maze系统在社区,个性化推荐和关键字提取方面所做的工作和存在的不足。随后,论文提出了基于分布关系的Maze资源社区的定义。论文的第二部分详细介绍了资源社区的分布式发现算法和资源社区描述信息提取算法的设计与实现。在分布式社区发现算法中,论文详细介绍了资源的初步筛选策略,局部资源社区发现算法,中央服务器资源社区合并算法和普通资源分类算法。分布式社区发现算法通过对海量资源进行分块,在多台机器上同时进行聚类计算,再将各个机器上得到的局部聚类结果传回到中央服务器进行合并,显著地缩短了海量数据的聚类时间,可以在资源集合中准确快速的发现资源社区。在提取资源社区描述信息的算法中,论文详细介绍了资源社区的关键词提取算法和实现。通过该算法,提取出能够标识资源社区特征,同时具有尽可能多语义信息的描述信息。论文的第三部分介绍了Maze资源社区系统的设计与实现。该部分详细阐述了系统的架构设计,数据库设计,以及具体模块的设计和实现。Maze资源社区系统通过Web方式,为用户提供了更好的浏览资源,使用资源社区,通过标签搜索等多种提高用户使用体验度的资源获取方式。 最后,论文对Maze资源社区发现系统的效果进行了综合的评测,并和已有的相关工作进行了对比,得到该系统在资源社区发现的效率和准确性,以及社区描述准确性上所获得的提高。同时,论文还分析了Maze系统中资源社区分布的一些特征。
其他文献
讲故事作为有效的教育手段,被广泛运用于儿童教育。随着计算机技术的发展,许多科研机构纷纷研究计算机支持的讲故事系统,给儿童提供新的讲故事方式。故事作为一种载体,需要丰富的
半导体技术、微系统技术、通信技术、计算机技术、自动控制和人工智能等技术的飞速发展孕育一种新型的测控网络:无线传感器网络。无线传感器网络是一种以数据为中心的自组织无
随着集成电路技术的快速发展,工艺特征尺寸不断减小,产品的性能不断提高,在单一芯片上实现全部系统功能的SoC(System on a Chip,系统级芯片)设计技术逐渐走向成熟,促进了嵌入式领
随着IP技术的发展和日趋成熟,以VoIP(Voice over Internet Protocol)为代表的NGN(Next Generation Network)通信作为一种典型的宽带应用正面临着前所未有的发展机遇。SIP(Ses
“存储墙(Memory Wall)”问题已经提出了10多年,学术界、工业界都在努力地改善CPU与Memory之间的差距。随着多核技术的发展,“存储墙”问题更严峻,内存的延迟与带宽都成为了计算
尽管生物测定学已经在许多领域中得以广泛应用,但是印鉴识别作为一种个人身份认证被广泛应用于日本等一些亚洲国家,印鉴应用于多种类型的文档。随着信息化的普及和办公自动化程
随着Internet网络技术的不断发展和应用领域的日益拓宽,许多新的服务如网上直播、远程诊疗等不断展现出来,开展这些服务离不开网络环境中的组播技术的支持。组播技术是相对于
通过引入欧氏空间的连续自映射不动点算法提出求解函数优化问题的改进遗传算法,并提出了两种分别针对单目标和多目标优化问题算法模型。这两模型都将剖分理论引入遗传算法,对
目前,在P2P文件共享系统中,以色情和政治不良倾向为代表的敏感资源广为传播,对社会造成了很坏的影响,如何识别并过滤这些敏感资源,成为当前P2P文件共享系统所面临的一个共同技术挑
文本检索通常分为两个阶段,初始检索和重排序。初始检索目标是以较低的代价从整个文档集合中检索出一小部分文档,使其包含尽可能多地相关文档,即具有较高的召回率。初始检索过程