【摘 要】
:
随着社会的进步,互联网逐渐成为人们表达舆论的又一个重要平台。网络具有传播迅速、用户匿名等诸多特性,由于这些特点,一方面,网络对社会舆论起到了很好的监督作用,但另一方
论文部分内容阅读
随着社会的进步,互联网逐渐成为人们表达舆论的又一个重要平台。网络具有传播迅速、用户匿名等诸多特性,由于这些特点,一方面,网络对社会舆论起到了很好的监督作用,但另一方面也容易包含反动、迷信和黄色的内容,给社会安定甚至国家安全带来困扰。因此,如何在丰富的网络信息中及时发现网民共同关心的热点问题,帮助政府及时了解当前社会重要事件及舆论方向就显得十分重要。本文主要研究如何在海量信息中找出被大众关注的热点话题。现有的网络舆情热点话题发现方法大多是运用传统的文本聚类技术,但传统技术没有考虑文本信息间的语义联系,往往得到不准确的话题分类结果,也就影响了话题的热点分析效果。本文针对在文本聚类过程中容易缺失语义信息的缺点,对传统方法进行改进,具体工作主要有:一是信息采集和预处理技术,研究如何从松散的非结构化信息中采集并抽取语料。利用网络爬虫技术和网页净化技术、中文分词技术,实现网络信息的自动采集与结构化存储;二是话题发现技术,通过文本聚类算法,将采集并处理的文本聚为表示不同话题的文档集,形成各个话题簇,运用统计学方法建立话题发现模型,进行热点分析:三是改进传统的话题发现技术,构建了一个基于语义分析的热点话题发现模型框架,利用语义Web及本体技术中的相关知识改进文本聚类中的各个子模块,主要是对文本表示模型和文本相似度计算两个子模块做了改进;四是通过实验数据,从查准率和查全率等方面对传统方法和改进方法的结果进行比对;五是通过对信息采集和网页预处理的辅助模块的了解、传统话题聚类方法的研究、以及语义相关知识的重点分析,设计了网络舆情热点话题发现系统,实现了舆情的采集及分析功能。本文重点通过语义分析的方法改善了文本聚类的性能,从而提高了话题分类以及热点话题分析的准确性,并通过实验验证了方案的可行性。
其他文献
云计算作为一种新兴的分布式计算模式,具有按需自助服务、资源共享、多种网络访问等特点,被广泛地应用于企业及机构。中小型企业通过借助云计算平台外包计算及存储企业数据,
当今世界,随着信息技术的不断进步,各类信息资源都以较快的速度增长并呈现出海量的特征,其中数据主要还是以文本的形式出现。信息量已经满足人们的需求,但是如何高效地管理并且使
单处理器的嵌入式系统已经不能满足用户的需求,多处理器系统已经成为未来嵌入式系统的主要发展趋势。现场可编程门阵列(FPGA)的出现给多处理器系统的设计带来了很多方便。相对于
低密度校验码(Low-Density Parity-Check codes)是目前最接近香农限的一类纠错码。由于其良好的距离特性、低译码复杂度,已成为当今信道编码领域研究的热点之一。随着研究的不
本文主要研究了数据包分类算法,以及数据包分类在入侵检测工具Snort和基于状态包分类的数据流检测中的应用。网络技术的飞速发展,给人们的社会生活带来很大便利。然而,网络用户
语音作为人们交流和表达情感的一种重要媒介,在日常生活中却总是受到噪声的干扰,因此我们需要对混入背景噪声的干净语音进行语音增强。语音增强算法的最终目标就是对背景噪声
软件缺陷是软件的固有属性,其主要危害是影响软件的可靠性、增加开发成本以及延长软件开发周期。软件测试可以及时发现软件错误,提高软件系统可靠性。而准确地预测软件缺陷,对改
RESTful Web服务作为一种轻量级的Web服务实现,近年来在云计算环境中得到了广泛的应用。然而基于HTTP协议的RESTful Web服务无法支持异步交互,在多参与者业务流程中执行效率不
随着全球信息化和智能化的推进,人工智能已经渗透到各行各业,模糊推理成为其中非常活跃的研究方向之一。围绕经典模糊规则和模糊推理算法的研究已有许多成果,但经典模糊规则不能
Flash动画作为一种重要的动画形式通过网络和其它各种媒体已经越来越多的深入到人们的生活当中。但是通过分析国内外大量Flash动画作品,发现Flash动画作品的设计和制作技术良