网络舆情数据获取与话题分析技术研究

被引量 : 19次 | 上传用户:petelau
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络舆情数据获取与话题分析是网络舆情态势分析与预警中的关键技术,已成为智能信息处理领域的研究热点。该技术从互联网上自动获取大量舆情数据,从中检测出网络舆情话题并借助数据立方体模型对其进行多角度、深层次的挖掘分析,客观地反映出网络舆情发展变化特点,对网络舆情信息监测和信息安全具有重要意义。本文主要研究网络舆情数据获取与话题分析技术,包括:网络舆情数据采集技术、网络舆情数据抽取技术、网络舆情话题检测技术和网络舆情话题分析技术。论文主要研究成果如下:(1)设计并实现了面向网络舆情数据采集的网络爬虫。一方面,分析了通用网络爬虫的不足,采用异步Socket、DNS缓存和多队列下载来改进其底层框架,提高了采集速度;另一方面,分析了网络舆情传播的主要途径,将重点锁定在论坛、博客、新闻这些网络文本,制定专用网络爬虫对目标站点进行分站式采集。各网络爬虫根据站点类型采用相应的采集策略以实现精确采集,并支持脚本执行、RSS解析。实验结果表明,通过两个方面的改进,本文设计的网络爬虫在有效性和效率上均优于通用的网络爬虫。(2)通过分析论坛网页的布局结构特点,提出了一种基于网页布局相似度的Web论坛数据抽取方法。该方法采用分级处理的方式,先识别出主题信息块,再利用待抽取数据的统计规律,在主题信息块中完成网络舆情元数据抽取,不需要任何人工干预。实验结果表明,该方法对不同的论坛站点有较好的通用性,并且在准确率和召回率上均高于同类的自动抽取方法。(3)针对目前话题检测中算法复杂度高、准确率低的问题,提出了一种基于层次聚类的舆情话题检测方法。该方法先对一定数量的文档进行层次聚类,得到若干话题,然后以此对后来的文档进行检测,并在适当的时候对未划分到任何话题的文档再进行层次聚类。该方法能检测出话题的层次性,同时运算速度快,可以达到准实时检测的要求。实验结果表明,相对于传统方法,本文方法在保证高准确率的同时,漏检率和错检率上都有所降低。(4)通过详细分析网络舆情组成要素,利用数据仓库技术,建立网络舆情话题数据立方体模型。该模型涵盖了网络舆情的大部分组成要素,而且可以根据实际需要方便地进行扩展。实际案例分析表明,应用该模型可以对网络舆情话题进行多角度、深层次的挖掘分析,分析结果能比较客观地反映网络舆情变化发展的规律和趋势,有助于全面地了解网络舆情话题,并为网络舆情预警提供必要的信息。
其他文献
液压油和油膜轴承油都属于工业润滑油,受到特定工作环境的影响,易混入水,影响到油品品质,进而对正常运行、安全生产极为不利。在润滑油配方中加入破乳剂是抑制油水形成稳定乳
在高中化学教学中,教师的教学目标应该是让学生具备一定的化学素养,还要培养出一批将来可以从事化学研究的专业人才.教师要想实现这两个目标的同时还不让学生感到乏味是一件
鄱阳湖位于江西省北部,是我国最大的淡水湖泊,也是重要的保护湿地和候鸟栖息地。近年来,随着经济社会的快速发展,鄱阳湖受重金属污染的范围和程度均有所增加。2009年底,“鄱
分析了我国工程管理专业的现状、工程管理专业建设中存在的问题,提出关于工程管理专业建设的思考与对策。
<正>在高中化学教学中,教师经常会遇到一些现象,虽然尽力给学生讲解,甚至采用题海战术,但是学生的学习效果并不理想.究其根本原因就在于学生的学习方法不对,学习效率低下.高
数字工业摄影测量是利用数码相机拍摄的数字图像进行测量的高精度三维坐标测量技术,工业摄影测量传感器——数码相机的测量精度对总体精度起着至关重要的作用。论文从非量测
在教育生态学框架下,类型多样的教师课堂提问作为一个重要生态因子,与整个大学英语课堂教学生态系统和其他次级生态系统或生态因子有机并存。为了实现课堂提问有效性,教师不
西方经济学家的对外直接投资理论强调 ,开展跨国经营的企业必须具有一定的垄断竞争优势地位。按照这种理论 ,中国绝大多数企业都不可能进行跨国经营 ,但事实上 ,许多中国的大
素质教育是目前国家正在提倡的一种教育观念,已经不是传统意义上的教育模式或方法。怎样把学生在学校里学习的知识转化成学生的综合素质并体现在日常的生活中,这就需要结合高
目的:探讨经阴道三维超声测定子宫内膜容积对异位妊娠的预测价值。方法:应用经阴道三维超声对120例疑似异位妊娠患者,进行子宫内膜容积的检测。根据子宫内膜容积将患者分为三组