网络舆情分析中智能信息收集器的设计实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:gklyliu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的迅速发展,网络己成为人们表达见解、讨论公共事务、参与经济社会、政治生活以及进行舆论监督的重要公共平台。网民规模的逐年攀升导致网络舆情形成迅速,对社会的影响巨大。如何能够及时发现舆情热点、正确引导民意走势是当前亟待解决的重点和难点。网络舆情分析的首要工作是舆情信息的采集,在web上,信息采集的任务由网络爬虫完成,因此,网络爬虫性能的优良直接关系到舆情分析结果的好坏。本文的主要研究目标就是如何提高舆情分析系统中网络爬虫的性能,为舆情分析提供优质的信息源。传统的网络爬虫以提高资源的覆盖率为主要目标,追求信息采集的全面性。网络舆情分析因其自身的特点,要求信息源具有较高的主题覆盖率,因此,必须在现有爬虫的基础上,加入一些爬行策略来指导爬虫的爬行,使其能满足舆情分析的需要。通过深入研究web页面解析、文档正文区提取、文档摘要、文档相似度分析等技术,设计了一种适合于舆情分析系统的信息采集器,该采集器在传统型爬虫模型的基础上,增加了以下一些重点模块:页面分析模块,主题相关度判别模块,URL队列管理模块。页面分析模块完成HTML页面的解析以及正文区的提取。通过调研两类基本的正文区提取算法,在对其优缺点进行深入分析后,提出了一种基于“URL模式库”的正文区提取策略,该策略通过维护一个URL模式库,可以显著提高正文区的提取效率;主题相关度判别用于评估页面与爬行主题的相关性;URL队列管理模块通过对URL进行主题相关性评分,决定URL的爬行次序。主题相关性评分的依据有:URL所在页面的主题相关性、链接串、锚文本及其上下文。为了验证以上设计的可行性,本文对两个单元模块以及整个系统进行了测试。通过和传统型网络爬虫的对比可知,本文所设计的信息收集器具有较高的主题资源覆盖率,很好地满足了舆情分析中“高主题相关性”的要求。
其他文献
车牌识别系统(License Plate Recognition System,简称LPRS)在智能交通管理中有着重要的意义。目前绝大多数国内外相关文献都是针对单车牌的识别,但在实际场景中经常会出现多
RFID(Radio Frequency Identification)即射频识别技术,是20世纪90年代开始兴起的一种非接触式自动识别技术,它综合了无线通讯、微电子、互联网等最新的信息技术,具有非接触、读
眼睛是脸部特征中极其重要的部分,包含着丰富的信息。一直以来,眼睛特征的检测和跟踪作为计算机视觉领域的重要课题,受到了广泛的关注。同时,眼睛跟踪在诸如眼睛疲劳检测,视
随着科技的发展,虚拟听觉开始应用到生活与科研的方方面面。生活方面例如3D电影、3D游戏等。科研方面例如军事的模拟训练与视觉辅助系统的研究等。尤其是在视觉辅助系统中,虚拟
随着计算机视觉算法的发展,视觉导航技术在自主移动平台的导航与定位中得到了越来越多地应用。本文旨在研究视觉导航系统中的立体视觉里程计技术,通过对摄像机获得的双目图像
尿沉渣显微镜检查是临床检验和诊断鉴别的重要方法,采用人工镜检的传统方式存在劳动强度大,容易引入误差等缺点,而且所看到的图像无法变换、处理,难以远距离传输,也不能进行
电子侦察系统的一个重要特点是要截获大量的无线信号,将其数字化之后再进行处理,这就是软件无线电的思想。数字化之后的数据需要高速传输到计算机进行分析或存储,因而该系统
无线充电的构想由来已久,近年来针对无线充电的研究也越来越多。自从麻省理工的研究团队在两米外点亮一个60瓦的灯泡之后,无线电能传输技术的发展更是突飞猛进。如今,市面上已经出现了无线电能传输的产品,如手机、mp3、笔记本电脑充电器等,虽然这些商品实现了无线充电,但其距电能发射端几乎是零距离。此外,当前人们对无线电能传输技术的研究还大多固定在单发送和单接收的模式之上,随着电子产品的增多,对单发射多接收电
随着GPS测量技术的发展,利用载波信号精确确定载体的姿态成为GPS应用中一个新的研究方向。文章通过载波相位相对定位理论,研究了利用GPS载波信息进行二维姿态的测量理论和算法,
高光谱图像十分庞大,给存储、传输和处理带来了很多问题,因此压缩技术研究成为了当今热点。高光谱空间和谱间相关性的特点决定了压缩降维的方法应不同于普通图像。基于高光谱