基于RSS的聚焦网络爬虫在高校网站群中的研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户:cangyueshang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络发展迅速,网页数量越来越庞大,人们为了获取需要的信息,往往需要翻阅大量的网页,浪费时间和精力,并且还不一定能够获取最新最全的信息,而网络信息的发布者也希望有更多的用户能够实时的阅读自己的信息,为此有很多针对该需求的研究孕育而生,例如由网络爬虫支持的搜索引擎、RSS信息推送等。但是它们都各有各的局限性,例如我们需要按照分类得到某高校的所有网站中的最新通知,比如该高校所有科研类别的最新通知。使用搜索引擎进行搜索,结果差强人意。而RSS虽然可以实现分类的推送最新信息,但是它推送的信息仅限于那些提供RSS feed的网站。对于一些类似于高校网站群这种早期建立的时候就没有实现RSS推送功能的对象来说,它就爱莫能助了。因此,本文主要研究基于RSS的聚焦网络爬虫来解决上述问题,并将其应用在高校网站群中,取得了较好的效果。它的原理是用聚焦网络爬虫对目标网站群的数据进行抓取、分析和处理,然后提供RSS推送。通过这种方式,对于即使没有提供RSS feed的网站,用户也可以通过RSS阅读器分类订阅其最新的信息。免去了大量翻阅网页查找信息的麻烦,以及查找疏忽对信息的遗漏。本文的主要研究内容包括:(1)提出一种新的基于RSS的聚焦网络爬虫的研究,使得用户可以使用RSS阅读器,订阅并阅读到没有提供RSS feed的网站的最新的信息。过滤无用的广告等垃圾信息,免去查找信息的麻烦。(2)基于TF-IDF算法对抓取的网页文本进行分类,并且在用TF-IDF提取不同类别的特征向量部分,针对网页的特征对其进行了改进。使得提取出的特征向量更能好的代表类别,分类结果更准确。(3)对网络爬虫的增量式爬取进行改进,基于传统的增量式爬取算法提出了一种新的计算预测更新时间的算法,使得预测时间更贴近实际更新时间的值,减少系统的开销,提高效率。(4)将基于RSS的聚焦网络爬虫的研究应用到高校网站群中,针对高校网站群的特征对PageRank算法进行改进,提高网络爬虫的查全率。
其他文献
云计算是近年来被提出的一种新型的计算模式,区别于传统的服务部署方式,弹性云计算可以使用户以相对较低的成本换取需要的IT基础设施服务。云计算以其独特的服务租用方式在IT领
成像测井技术是将沿井壁或井周的地层信息以电子图像的方式直观显示的新一代测井技术。成像测井在复杂油气储层等地质解释评价中发挥着越来越重要的作用,成为现在研究热点之一
近年来,通用计算图形处理器作为计算密集型应用的加速器,被科学家和工程师们广泛关注。在CPU-GPU异构并行计算平台上,诸如CUDA和OpenCL等编程框架都提供了相对底层的编程接口
随着成像设备以及计算机科学技术的发展,自然场景图像的分析处理具有重大的学术价值和应用意义。论文以自然场景图像为研究对象,对视觉注意模型和图论分割算法进行了深入研究和
基于图像的非接触式人体测量方法,具有快速、便捷、成本低等优点,已逐渐成为人体测量技术的研究趋势。人体参数测量的精确度取决于人体特征点的准确提取和围度拟合的方法,而
随着物联网技术的发展,无线传感器网络与IP网络的互联成为物联网应用的一个技术瓶颈。要实现使用不同通信协议的两种网络之间的无缝连接,网关起到了非常关键的作用。无线传感
多年来,软件已经从硬件附带的免费代码演变成了有独立价值的产物,几乎支持所有电子设备和系统的自动化。互联网时代的到来使得越来越多的软件分布于移动端,软件在人们生活中
近年来,由于光纤通信技术和以太网技术的迅猛发展,基于以太网的无源光网络(EPON)技术在国内得到了大规模应用。但各个设备制造商使用自定义的OAM帧来实现具体的功能,造成了不
语义网是万维网的一个扩展,用机器可理解的方式来描述信息,为了解决当前万维网缺乏语义的问题。语义网中用本体来描述信息,表达概念以及概念之间的关系。由于现实世界的信息
人工蜂群算法(Artificial Bee Colony, ABC)是近年来流行的一种进化计算方法,受启发于蜂群个体间相互协作的特定社会群体行为,是一种基于种群搜索策略的启发式优化算法。人工