爬虫算法在互联网舆情系统的研究与应用

来源 :江苏科技大学 | 被引量 : 2次 | 上传用户:wc420178
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的不断进步,人类已经进入了一个全新的“信息时代”。互联网已经成为了当前主流的信息载体之一。面对互联网上的大量舆情信息,如何实现对其进行有效的监控和筛选也成为了研究重点。由于通用搜索引擎无法满足特定用户群体的搜索需要,针对特定主题的主题爬虫应运而生,主题爬虫也为互联网舆情系统中的垂直搜索部分提供了数据来源。本文以国内外的现有研究成果为依据,通过分析当前互联网舆情环境,设计了互联网舆情系统,并针对其中的主题爬虫进行了研究设计。对影响主题爬虫性能的关键性算法进行了研究改进,并在系统中完成了主题爬虫的实现。本文完成的主要研究内容如下:1)分析了主题爬虫性能对比通用爬虫的优势,对其搜索策略和网页评价算法进行研究,根据比较选择了最佳优先策略作为其搜索策略,并通过建立向量空间模型来对网页进行评价。同时研究了主题孤岛和拒绝协议两大关键问题,在此基础上对本文中使用的主题爬虫进行了结构设计;2)分析了当前网络舆情环境特点,针对这些特点进行需求分析,根据得到的需求进行互联网舆情系统的结构设计;3)给出了主题爬虫在互联网舆情系统中的具体实现,包括抓取策略、分析策略、爬行策略、去重策略和任务调度策略,对抓取时的主题库更新问题提出了动态扩充的解决办法,并针对网页去重I-Match算法和任务调度Hash算法中的不足进行了设计改进,改用了一致性Hash算法进行任务调度,最后对系统进行了测试。本文设计的主题爬虫综合了主题库改进策略和算法改进,从整体方面提升爬虫性能。经过测试,本文设计的主题爬虫性能优于一般主题爬虫。
其他文献
超椭圆曲线密码体制作为椭圆曲线密码体制的一个推广,它的安全性是建立在超椭圆曲线离散对数问题难解性上的。与其他公钥密码体制(如RSA/ECC)相比,它的密钥长度更短、安全性
动态图像理解技术在智能交通中应用的研究,是智能交通系统的重要前沿研究领域,具有十分重要的理论意义和应用价值。利用基于动态图像理解技术在道路交通方面的应用代表着道路交
以Android为代表的现代移动操作系统在为移动应用提供稳定、高效运行环境的同时,存储、管理着相对于个人计算机更多的用户隐私数据。为获取更优质的服务,用户通常不吝啬于向
计算空间任一点到多面体的有符号距离在众多领域都有应用,如在虚拟现实,机器人运动规划,碰撞检测等方面都有应用。经常通过计算物体间的最近距离来避免运动过程中的干涉和碰
在能源枯竭与环境污染日趋严重的背景下,太阳能作为一种清洁的可再生能源以其资源丰富、分布广泛和开发前景广阔的优点,愈来愈受到了世界各国的重视。而光伏发电是太阳能目前使
本文提出了一种改进的向量空间模型(VSM)用户单兴趣表示法及其动态学习算法,实验表明该算法能够实时捕捉和记录用户最新的兴趣需求,并能自适应地调整和更新用户模板。在此基
现实世界中实体间的关系可以图数据来表示。图算法用来对图数据进行数据挖掘。数据图处理系统提供了接口给用户实现图算法。数据图处理系统执行算法时普遍采用确定性的并行执
随着计算机技术在会计领域应用的日益深入,传统的手工会计核算手段正逐步被以计算机技术应用为特点的会计电算化核算取代,会计的电算化必然导致会计信息化审计,传统的审计方法和
随着网络技术和通信技术的不断发展,用户对网络的需求日益多样化,基于IP交换网络的多点视频会议系统的实现由于其成本的低廉,交互性强大,多点共同参与的特点和优点成为了人们通过
随着网络入侵和攻击行为的日益增多,网络信息安全的相关问题逐渐引起人们的重视。目前,已有的网络安全产品己无法实现对整个网络安全状况的准确监控,网络安全态势感知的研究也随