基于主题相似度指导网络蜘蛛穿越隧道的爬行算法

来源 :计算机工程与科学 | 被引量 : 0次 | 上传用户:levmg2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
隧道穿越一直是主题网络蜘蛛爬行研究的难点,本文在分析了网页主题特征和普通隧道技术爬行算法缺点的基础上,提出了使用主题相似度指导网络蜘蛛穿越隧道的爬行算法,并用朴素贝叶斯分类器方法提高主题相似度计算精度。实验表明,本文提出的隧道穿越技术在查准率和查全率方面都比普通隧道技术有很大提高。
其他文献
目前,漏报率和误报率高一直是入侵检测系统(IDS)的主要问题,而IDS主要有误用型和异常型两种检测技术。根据这两种检测技术各自的优点以及它们的互补性,本文给出一种基于人工免
多核处理器规模的不断扩大和核间通信机制的日益复杂,使得Cache一致性维护变得更加困难。本文从多核处理器Cache一致性问题的产生背景出发,分析监听协议、目录协议、Token协
当前,校企合作得到了教育部与职业学校的广泛关注。有关部门领导在不同的教育会议上对校企合作做了多次阐述。2003年12月,原教育部部长周济在第二次全国高等职业教育产学研结合经验交流会上发表《以服务为宗旨、以就业为导向,为社会主义现代化建设培养高技能人才》的讲话指出,党的教育方针一贯要求高等教育要加强实践环节的教学和训练,发展与社会实际工作部门的合作培养,促进教学、科研、生产三结合。这就要求学校和企业
10岁时,成为一名令人自豪的专业游泳运动员是她的梦想。20岁时,她进入武汉大学体育学院学习体育管理,因为偶然读到的《艾柯卡自传》,她的内心激荡不已,开始期盼自己也有一个热血沸
在内江市少年儿童业余体校柔道教练、民进会员魏嘉陵的人生名片上有着太多的荣誉:全国青少年体育工作先进工作者、四川省劳动模范、四川省"五·四"青年奖章获得者、内江
随着网络信息系统的日益扩大化,分布式数据挖掘越来越受到人们的重视。而采用多智能体的分布式数据挖掘技术,各子Agent之间不但履行各自的职责,还互相通信获得信息,协同完成任务,
一、关爱学生技校突出的特点是生源比较复杂,学生本身的差异也很大。有的同学基础比较好,人也听话;还有一些则基础差,还不愿意认真听课;有些同学不管是上理论课,还是实习课,
目前,大多数学者都意识到需求演化的重要性,然而依然缺乏有效的方法指导需求演化。反射式需求规约通过描述支持OWL-S需求规约演化的元信息,并支持以合理的方式使用这些元信息,实
本刊讯 2004年12月27日,中共四川省委召开统一战线推进四川发展新跨越建言献策座谈会。省委书记、省人大常委会主任张学忠,省委副书记、省长张中伟,省政协主席秦玉琴,省委常
本文分析了IPSec协议在通道模式下对ICMP差错报文不能正确转发的问题,并对原IPSec协议进行改进,提出了一种对SA改进的IPSec解决方案。改进后的方案能够在保持原IPSec特性的基