互联网舆情热点自动发现与分析技术研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:woaibaobei123321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网络的快速发展,互联网日渐成为舆情产生和传播的主要场所。为了加强互联网管理和监控,互联网舆情信息的汇集整理与分析成为目前各级政府部门急需解决的现实问题。舆情监控分析系统可以实现海量互联网舆情自动实时的监测分析,有效地解决传统人工方式对舆情监测的实施难题。在诸多互联网舆情智能分析功能中,舆情热点自动发现和分析技术的研究和应用是其中重要的一环,可以帮助用户及时快捷地了解和掌握互联网热点,为掌握社情民意起到推动作用。因此,本文针对用户的应用需求,研究了舆情热点的自动发现及深入分析技术。具体说来: 本文针对舆情热点自动检测的实际应用,提出了一个实用的舆情热点动态检测算法。该算法通过引入如下几个步骤提高了舆情热点检测的效果:在主题排序方面,综合考虑了主题的时间和数量特性,为某一时刻的每个主题给出一个合理得分值;引入主题合并和调整的机制,克服同一个主题被误分为多个小主题的问题;引入主题内报道淘汰的机制,避免主题内容过于宽泛;在主题描述方面,提出了将特征词和报道标题相结合的方法。实验表明,在实际应用场景中,本文所述方法明显提高了舆情热点的检测效果。 在多文档的自动关键词提取方面,本文提出了结合词性规则和统计信息的方法,有效利用多个文档所反映的的全局性的重要信息,同时又尽可能的过滤掉信息冗余。该方法首先基于词性标注结果找出名词、动词、名词短语作为候选关键词;然后过滤部分候选关键词,并计算其余候选关键词的权重;最后根据用户所需个数给出最终关键词列表。在中文测试集上的实验证明了该方法的有效性。 在舆情褒贬分析方面,本文分别在如下三个方面进行了研究。一是提出了基于搜索引擎摘要和基于同义词词林的两种词汇褒贬计算方法:其中前者利用搜索引擎摘要中的词汇共现关系提高词汇褒贬判断的准确率;后者利用同义词词林中的词群关系根据种子词汇扩展褒贬义词词典。二是分析了基于褒贬义词词典和基于机器学习的两种文档褒贬分析方法:其中前者集成了HowNet、同义词词林以及领域褒贬义词词典,具有较高的准确率;后者则利用机器学习方法从训练文档中学习褒贬特征,具有较好的总体性能。三是提出了基于词性规则和已有褒贬词典的观点抽取方法,该方法可以较准确的抽取到文档集中的评论主体及观点。 本文最后给出了一个具体的应用实例系统——方正互联网舆情监控分析系统,说明本文研究的舆情热点自动发现和分析技术有效改进和完善了该系统,具有重大实用意义。
其他文献
随着计算机技术和通信技术的迅猛发展,计算机应用日趋广泛与深入,同时也使计算机安全问题更加突出和复杂。传统的安全手段已经不能满足现代网络安全的发展要求,入侵检测作为一种
集群文件系统作为网络存储系统的核心技术,很好地解决了传统文件系统中存在的性能、容量、共享、可扩展性等问题。然而随着需求增加,集群文件系统的规模可能扩展到包含大量节点
本文以某防空C4KISR系统为背景,并针对C4KISR这样大型复杂系统的建模方法、以及建模后的仿真实现,做出了深入的研究。 首先本文分析了C4KISR系统的基本理论框架,包括定义、功
Web上的信息量巨大而丰富,并且已成为了企业、个人赖以生存和发展的主要信息资源。随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段。然而,Deep Web环
无论是工作、生活还是社交,人类目前已经身处一个充满着各种各样复杂网络的世界中。这些结构复杂的网络使人类联系得更加紧密,提高了生产力,但同时也为人类生活带来了一些负面冲
大规模科学与工程计算被公认为科学研究中处于试验和理论研究方法同等重要的第三种方法。单个计算机由于硬件的限制,其计算能力远远不能满足大规模科学与工程计算的要求,高性能
全光网络不需要光-电-光转换,克服了现有传输网络中节点交换的瓶颈,具有强大的传输能力,是最具前景的新一代大规模骨干传输网络。在全光网络中,两点间的通信通过端到端的链路实现
学位
共享与协作是计算网络技术的永恒追求,而P2P覆盖网络(overlay networks)是互联网(Internet)上最为有效的共享与协作技术之一,是万维网(Web)技术发展的必然途径。万维网技术已经
由于近几年来中国对单片机的需求不断增长的同时市场上还没有一个统一的8位低档单片机操作系统,本文设计并实现了基于低档单片机的操作系统。此操作系统能够在保证系统实时性
随着软件开发技术和开发工具的提高,软件工程和软件过程实践的推广,软件测试日益得到重视和专业化。软件自动化测试,已经成为国内软件工程领域一个众所周知的课题;不言而喻,软件测