【摘 要】
:
本文讨论限定主题的网络爬行问题.本文中给出了一个一般的网络爬行器的结构,介绍并实现了两种类型的网络爬行策略:基于内容的限定主题的爬行和基于网络拓扑结构的限定主题的
论文部分内容阅读
本文讨论限定主题的网络爬行问题.本文中给出了一个一般的网络爬行器的结构,介绍并实现了两种类型的网络爬行策略:基于内容的限定主题的爬行和基于网络拓扑结构的限定主题的爬行.本文中提出的方法综合使用了页面内容信息与链接文本来指导网络爬行器的爬行,实验结果显示这是一种寻找主题相关页面的很有效的方法.本文中提出了一种新颖的评价方法.我们首先采集了大量的页面并建立了一个数据集,然后将这个数据集中的页面用一个SVM分类器分成三个不同的领域(网球、田径、其它),我们把这些分类结果看成是正确答案.然后,我们在这个数据集上用不同的爬行算法来运行虚拟的爬行来评价这些爬行算法.
其他文献
“试验”系列卫星计算平台的仿真研究是本课题的背景,通过建立面向卫星计算平台的软件仿真环境,可以有效解决卫星计算平台的测试问题,并可对卫星计算平台的研发起到加快
本文以中间件技术为依托,在中间件技术中关系数据转换到XML数据输出的构架的基础上,提出了一个关系数据转换成XML输出的中间数据转换模型VTree.不同于其他中间件中的数据转换
本文在基于句子级唇读识别的基础上,对唇读的基本技术问题包括预处理、唇动定位与特征提取、特征优化、唇读识别进行了研究和实践,具体包括以下内容:首先介绍了包含200个常用
本文主要针对目前的口腔手术术前清理工作中存在的难题进行了研究,并设计开发出了一种基于预测控制算法的口腔治疗仪控制系统。该系统利用预测控制算法产生控制信号,作用于驱动治疗仪的气泵电机,使得治疗仪容器内的气压值保持恒定,这样就能自动保持治疗仪的抽吸力度,使其在平稳状态下工作。从而解决了保持均衡的抽吸力度进行口腔术前清理这个难题。本文的主要研究工作包括:硬件、软件控制系统的设计,控制算法的研究以及改进,
本文首先给出了一个完整的层次化体育视频分析及应用框架,然后围绕着这个框架叙述了我们在不同层次上所进行的研究工作,包括低层的镜头检测,中间层的场景分类、高层的故事单
近年来,以云计算、大数据分析、高性能计算为代表的创新应用,给数据中心带来前所未有的压力和挑战,推动着数据中心的发展。在数据中心技术发展过程中,尽管出现了如软件定义网络/
本文首先介绍了匿名通信系统的有关概念、主要技术及模型.人们在研究匿名系统模型和协议的同时,逐渐将研究方向转移到匿名系统性能的测量上来;本文在这样的背景下,基于Crowds
随着多媒体与网络技术的不断发展,网络上视频种类繁多,其中不乏大量影响青少年儿童身心健康的恐怖暴力类视频。然而,目前却缺乏有效的自动检测和过滤手段。传统的人工标注方法与
本文围绕自适应小波图像压缩方法这一课题,在第二代小波理论的指导下,对小波滤波器的选取、自适应小波变换的实现、小波系数的优化以及自适应小波滤波器的完全重建进行
本文应用机群并行技术处理滑动窗口的连续查询,并行处理的方法可以提供更多的主存空间和更多的计算资源进行数据流查询处理,从而提高了数据流整体查询处理能力,有效地解决复