基于新闻版权的并行网页消重技术研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:liongliong543
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络上信息的飞速增长,搜索引擎已经成为人们查找信息的重要途径。搜索引擎对互联网上的网页进行检索时,由于存在大量的重复网页,不但加重了用户检索和阅读的负担,而且浪费了大量的存储资源。为了达到更高的采集效率并满足用户需求,需要去掉这些重复的网页。论文在分析现有的去重算法基础上,针对现有算法的缺点,提出了一种新的网页去重算法,该算法利用转载的网页大多会标出其来源、出处这一特征进行网页的初步去重,并结合特征串的方法对初步去重后的网页进行二次去重。算法减少了网页文档之间相互比较的次数,更适合海量空间网页的去重。实践表明该算法有较高的准确率和召回率。   现阶段的网页去重方法无论是基于网页内容还是基于网页特征都是单机去重,并不能充分利用计算机资源,高效地进行网页去重。目前的并行计算技术大多是基于MPI/PVM的,它们存在的主要问题是程序可移植性差,不便于扩展,配置复杂等缺点。论文在对ProActive中间件进行深入研究的基础上,提出了基于ProActive网格网络并行分布计算中间件的并行网页消重算法——-Del_duplicate,该算法解决了目前并行技术存在的问题,实现了并行去重。实验表明该并行去重软件可以节省更多时间,具有较高的实用价值。
其他文献
近年来,计算机技术已经有效地应用于部队的设备管理工作中。随着部队设备综合信息管理系统的广泛使用,各分区系统的数据量将越来越大,同时军区数据中心也积累了大量的设备维修数
人类社会发展到现在已经进入到一个知识大爆炸的时代。为了应对知识的迅速累计,将知识信息化成为了必然的趋势。信息化的一个重要的特征就是强大的知识检索功能。在各种检索工
由于高性能计算和大规模分布式数据应用需要对输入/输出数据集进行大量共享式并发访问,本文提出并实现了LDDSS(Large-scaled Dataset DistributedStorage System)模型,以通过改
随着计算机处理能力的不断增强和网络通信技术的迅速发展,越来越多的计算机连接到了Internet上,在传统的客户机╱服务器管理模式中,服务器端承受着巨大的负载,而客户端基本上
数学公式图像的自动识别与理解,是文档图像处理与模式识别领域的世界级难题。数学公式是非常复杂的一种文档结构,难以被计算机进行自动处理。对数学公式文档图像进行精确地识别
当今迅速发展的知识爆炸,使得人们不得不即时的“充电”来适应这个快节奏的新时代,随着而来的新的学习软件环境的出现以及多功能的教学系统的实施,人们依靠网络软件来学习的
自从人类有了资产保护,就有了授权这个概念。守卫、门以及锁自古以来就被用于限制私自访问贵重物品。在今天的信息技术环境中,授权关心的是用户如何访问计算机系统的资源;通
网格技术试图聚合分布在世界各地的计算、存储、知识、通信和信息等各类资源,以服务大众为目的,实现资源共享与协同工作。网格任务调度技术问题尤其突出。网格所具有的动态性
随着计算机网络技术与信息技术的快速发展,Web上的信息急剧增加,已经成为当今社会的重要资源,人们也越来越多地依赖搜索引擎来查找所需的信息。但是Web上存在大量的在线数据
针对当前Web界面普遍存在的交互能力不强和开发效率不高的问题,本文提出开发基于JSF的Ajax组件来构建Web用户界面。JSF是一个基于组件的Web界面开发框架,其核心是利用可重用