论文部分内容阅读
随着网络上信息的飞速增长,搜索引擎已经成为人们查找信息的重要途径。搜索引擎对互联网上的网页进行检索时,由于存在大量的重复网页,不但加重了用户检索和阅读的负担,而且浪费了大量的存储资源。为了达到更高的采集效率并满足用户需求,需要去掉这些重复的网页。论文在分析现有的去重算法基础上,针对现有算法的缺点,提出了一种新的网页去重算法,该算法利用转载的网页大多会标出其来源、出处这一特征进行网页的初步去重,并结合特征串的方法对初步去重后的网页进行二次去重。算法减少了网页文档之间相互比较的次数,更适合海量空间网页的去重。实践表明该算法有较高的准确率和召回率。
现阶段的网页去重方法无论是基于网页内容还是基于网页特征都是单机去重,并不能充分利用计算机资源,高效地进行网页去重。目前的并行计算技术大多是基于MPI/PVM的,它们存在的主要问题是程序可移植性差,不便于扩展,配置复杂等缺点。论文在对ProActive中间件进行深入研究的基础上,提出了基于ProActive网格网络并行分布计算中间件的并行网页消重算法——-Del_duplicate,该算法解决了目前并行技术存在的问题,实现了并行去重。实验表明该并行去重软件可以节省更多时间,具有较高的实用价值。