互联网信息定向采集研究

来源 :北京机械工业学院 北京信息科技大学 | 被引量 : 0次 | 上传用户:wendychenwang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出了一种互联网信息定向采集方法。通过对互联网的定向搜索、反馈和预测排队机制,对网页内容的进行分析处理(分词、建立VSM向量、计算网页内容相关度),对页面上的超链接指向的页面内容进行预测和先下载和主题相关性高的页面,实现在互联网上有选择的采集和主题相关性高的用户需求的内容并进行存储。它与广度优先搜索和深度优先搜索相比,有更高的效率和更小的代价。 传统的搜索引擎是基于整个网络进行采集,需要大量的硬件和网络资源的支持,而且搜索引擎服务器存储只是网页的某一历史时刻的记录(这一时刻与现在时刻的距离取决于搜索引擎的更新时间),而定向采集可以只采集某些方面的文档,所以与传统的搜索引擎相比系统资源和网络资源消耗很小,更新快,比较接近当前的web,用户个性化满足好。此系统可进行专题研究,可形成立体的专题库(时间和空间),进行历史资料的积累和查阅。
其他文献
当前互联网安全事件频繁爆发,互联网环境安全态势日趋恶化。研究人员希望得到网络安全事件真实数据进行研究分析,以达到防御目的,改善互联网环境。得到安全事件的真实网络数据需
程序依赖性分析是软件工程领域中一项重要而基础的活动,它是对已有程序分析与理解的基础,并在程序切片、逆向工程、软件测试以及软件重构等软件工程各个领域都有着重要的意义
生物识别技术是近几年来热门研究课题之一,该技术是一门多学科交叉的技术,包括生物学、医学、计算机科学、电子学等。虹膜识别技术是其中极有潜力的生物识别技术,由于其具有
最近邻分类器作为模式分类领域一种简单而有效的分类方法,有着广泛的应用。但是在实际问题中,特别是在不同类别的分布空间有重叠的情况下,其分类性能会有较明显的下降。针对这个
随着计算机网络的日益普及和通信技术、计算机技术的发展,企业网中的应用服务越来越多。但是不同的应用服务各自有一套身份认证机制,用户要访问多个应用服务就必须逐一通过这
不论是在计算机视觉领域还是在人机交互领域,视频序列中的目标追踪都是一项基础的工作。目标追踪技术可以用于许多领域。比如车辆导航、视频监控、智能机器人等。这些应用能
印染、陶瓷、纺织、丝绸、地毯以及丝网印刷等领域是我国重要的传统产业,目前在产品市场上面临着激烈的国际竞争,产品市场需求特点已由少品种、大批量转变为多品种、少批量的生
随着网络技术的飞速发展,计算机和网络已经渗透到社会生活的各个方面,随之而来的网络安全问题也越来越引起人们的关注和重视。基于免疫原理的入侵检测技术研究已成为继神经网
成本管理是计算机软件项目管理中的一个重要环节,成本估算是进行成本管理的前提和依据。未进行成本估算和效益分析就进行软件项目开发,往往会导致项目失控。目前,计算机软件
随着计算机软、硬件的不断发展和计算机网络使用范围的不断扩大,Internet上存在着大量的剩余资源,如存储资源、计算资源和数据资源等等。P2P网络技术为合理、高效地利用这些