论文部分内容阅读
图模式挖掘是近年来数据挖掘界的一个热点问题,它在很多领域如Web挖掘,分子结构分析,生物信息学等有广阔的应用前景。本文在分析已有基于Apriori的图模式挖掘算法基础上,提出了基于先同分后异构思想的图模式挖掘算法,它有效地提高了图模式挖掘的效率。
为了改善权威资源分析的质量,本文把图模式挖掘理论应用到Web链接结构分析中,提出了基于图模式挖掘的权威资源分析方法,它首先基于RandomWalk聚类思想对搜索引擎搜索结果扩展得到的主题相关页面根据页面间的相似度进行了分组,然后利用频繁结构挖掘思想从每个分组里找出频繁出现的结构,并对这些结构进行一定的筛选,找出最具代表性的结构作为我们所求的权威资源。该方法不必使用内容分析就能改善权威资源分析的质量,减少主题漂移;而且能在发现主流行权威社区的同时,发现次流行社区,减少主题遗失。
最后,基于上面的技术,本文设计和实现了权威资源搜索的原型系统ARSS,它以Java为开发工具,实现了主题相关页面信息的收集,权威资源的分析和表现。它具有良好的用户界面,用户可以输入自己的搜索关键字,选择权威资源分析方法,设置相关参数,系统会自动返回相关的权威资源信息。通过一系列的对比实验,我们表明了系统的有效性。