企业多源舆情监测系统研究与实现

来源 :复旦大学 | 被引量 : 0次 | 上传用户:ZHANQIWEI
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网舆情是人们获取资讯、表达观点的重要渠道,随着各种各样以社交为基础的综合资讯流通方式不断出现,舆情来源越来越丰富,且具有较强的社会性、即时性和传播性。企业迫切需要对新闻、博客、微博、论坛讨论、视频等进行全面、及时、准确地掌握,以维护公众形象,及时应对突发事件,面向企业决策和应急处理的多源舆情采集、分析与监测系统应运而生。本文结合背景项目需求,对多源舆情监测涉及的网页采集、网页预处理、舆情信息判别、突发事件识别、舆情话题识别与跟踪、舆情情感倾向分析等技术进行深入调研,分析了现有算法的局限、缺陷,并针对传统网页爬虫对Web2.0下站点抓取覆盖率低、向量空间模型的突发事件识别方案误判率高、舆情情感倾向识别准确率不高等关键问题,进行了算法和技术方案创新,设计了满足企业决策与应急处理需求的企业舆情监测系统,进行了开发和测试。论文提出了一种基于DOM状态转换的隐网页信息抽取算法。该算法嵌入浏览器环境,全量构建DOM状态转换机,以DOM节点及其点击事件作为状态机的输入事件,应用RTDM算法对DOM状态空间进行压缩,通过覆盖监听器方法原型,获取DOM树中所有可点击的节点作为候选节点。实验表明,该算法性能优良,对隐网页内容的抽取准确率达到89.48%,远优于传统方法;提出了一个基于预分类和命名实体识别的方法来进行突发事件识别,预先将文本分类到十个大类下,将搜索规模缩减为十分之一,定义带权NE相似度来进行舆情文档间的比较,实验表明,带权NE相似度的引入对突发事件识别的准确率和召回率有提升;提出了一种基于文本情感句法分析加权的舆情判别优化技术,改进了情感词加权分析算法,使用句子和企业多维描述字典相似度,代替句子和篇章主题相似度,取得了准确率上的提升。论文所设计算法与系统,已结合背景项目进行了评测和试用,具有良好的技术性能,有望获得广泛的应用。
其他文献
TSP问题(traveling salesman problem)是一个组合优化方面的问题,已经成为并将继续成为测试组合优化新算法的标准问题。从理论上讲,使用穷举法不但可以求解TSP问题,而且还可以求
本篇论文主要从以下四个方面对Web日志挖掘进行了系统的分析和研究。第一是对数据挖掘、Web数据挖掘和Web日志挖掘进行了概述,阐述了本篇论文的研究背景及Web日志挖掘研究现
随着网络信息技术飞速发展,互联网已经成为人类社会的重要组成部分。在Internet 之上,一个虚拟的社会正在成熟壮大。网络技术和设施的日臻完善,为这个虚拟社会提供了技术和硬
随着计算机技术和云计算技术的高速发展,因特网给人们的生活带来了翻天覆地的变化。但是近些年来,网络上不断曝光多起严重的信息泄露等安全问题,使得人们对于网络产生了信任
权函数神经网络是近些年来发展起来的一种新型神经网络,该算法具有很多优点,例如可以直接求得全局最优点,具有很好的泛化能力,训练后的权函数能够反映样本内部的有价值的信息特征
智能规划是人工智能研究领域近年来发展起来的一个热门分支,理论研究和实际应用都成为人工智能当前的热点。本文首先分析研究目前智能规划领域中的典型方法和关键技术,并对规划
研究药物和靶标蛋白之间的关系对于药物研发有着重要的意义。传统的化学试验方法效率低下且成本高昂,而通过计算机技术进行研究具有高效、低开销等优点,因此成为这一领域的重要研究途径。本文重点关注基于机器学习,尤其是基于相似度的药物-靶标相互作用关系预测方法。这一领域当下的研究热点是如何开发新的预测方法使其具有较高的预测准确性。在本文中,我们首先对现今较为经典,同时预测效果较好的几种基于机器学习的方法进行了
电子科技大学新型网络实验室所提出的服务元网络体系结构是一种非层次的新型网络体系结构,它采用端到端的虚电路结构,从而可以预留资源,进而保证了网络服务质量,并且服务元只
随着计算机网络技术的飞速发展,连入网络中的计算单元数量越来越多及种类越来越繁杂,人们不得不重新考虑在这种新的形势下的互联网络体系结构。为了适应海量的信息资源的发展
21世纪是计算机和网络的世纪,随着Internet的快速发展,其用户数量正以惊人的速度递增,用户数量的激增又刺激了网络技术的发展。人们不再满足于单一的文字信息交流方式,结合了