天涯论坛视点2.0——基于天涯论坛的网络舆情分析系统

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:yfyzp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的兴起以及社交媒体的快速发展,网民可以在线自发的、不受时空限制的对各种社会现象、社会问题进行集体讨论。网络已经成为反映社会舆情的主要载体之一。因此,对网络舆情的分布规律和分析方法进行研究具有重要的意义。  论坛是一个重要的网络媒体,正日益成为网络舆情的主要数据来源。本文以国内最大的论坛天涯论坛为数据来源,采用网络挖掘技术,构建了天涯论坛视点2.0系统,从在线行为分析、热点事件探测和观点挖掘等方面对舆情数据进行了挖掘。该研究丰富了网络舆情研讨厅的机器体系,也是综合集成方法在网络舆情研讨厅中的一个实践应用。本文主要的研究内容包括:  1)构建了天涯论坛视点2.0系统。该系统利用网络爬虫每日定时对天涯论坛进行定向抓取,采用MySQL数据库与XML文件系统相结合的方式完成数据存储,并利用Lucene构建索引,以满足快速检索的需求。然后利用以下的网络舆情分析算法对数据进行分析,并通过用户界面展示分析结果。  2)对在线行为进行了分析。发现帖子的点击量、回复量、生存期以及用户的发帖量均在一定程度上满足幂律分布,极少数的帖子吸引了大部分的关注。进而提出了帖子的热度计算公式,指出大部分的热帖是无风险的,并通过邮件推送功能将每日热帖推送给研究人员。  3)对热点事件探测技术进行了研究。提出了一种结合文本聚类与行为分析的热点事件探测方法,该方法利用文本聚类发现事件,经过比较发现层级式聚类可以取得较好的结果;然后利用事件的热度计算得到热点事件。该方法用于每日的热点事件探测,并将结果通过邮件推送。  4)对观点挖掘技术进行了研究。设计了基于情感词典的观点挖掘方法,该方法适用于长文本分析。然后对关于中医的研讨过程从行为和立场两个方面进行了分析,发现在观点挖掘的研究中应将情感与立场区别对待,具有重要的意义。
其他文献
数据挖掘是当今计算机应用技术和理论研究中最热门的领域之一。数据挖掘技术经过十多年的发展,已经逐渐建立起系统的挖掘理论和成熟的挖掘技术。形成了以关联规则挖掘、分类规
我国消防系统的档案多以文档形式为主,部分信息附以二维平面图来表现。本课题是研究和开发高层和大型建筑的计算机三维模型的快速生成系统,为建立消防档案提供三维的机制,促
在异构分布式环境中,具有依赖关系的任务调度问题属于NP完全问题。为了取得较好的调度方案,很多启发式调度算法被引入到了调度问题的研究当中。例如:列表调度算法、遗传算法、模
用计算机生成具有真实感的画面是计算机图形学的主要目的。其前提是构建虚拟场景的逼真几何表达。一种有效的解决途径是获取真实世界中物体的几何信息,然后基于这些信息进行建
数据挖掘的研究经过十几年的迅速发展,已经取得巨大成就,相关技术正在被各应用领域的专家所瞩目。目前,数据挖掘研究及其应用己经渗透到多个学科及领域中,并在人工智能与机器学习
移动数据库是为了适应移动计算环境下的数据存取需求而产生和发展起来的。采用数据复制和同步技术的复制移动数据库系统是移动数据库的一种重要模型,这种模型对移动设备在断连
当前世界的竞争,是各国之间综合国力的竞争。确切地说:是经济的竞争,科技的竞争,能源的竞争。进入二十一世纪,人类对能源的需求与日俱增:原油需求量日益膨胀,原油价格一路飚升。而目
计算机网络技术的快速发展推动着分布式计算的进步,促成了计算机应用体系从独立应用体系向网络应用体系的转变。然而,随着网络应用在各个领域的迅速扩展,分布式系统开发的复杂性
词义歧义是指一词多义,即一个词在不同的上下文中有不同的意思。词义消歧就是根据上下文的语境,确定文本中每个词的确切意思。在自然语言处理领域中,词义消歧是一个必不可少的环
实时系统主要面向现实世界中与时间因素相关的应用需求,它所关注的不仅是计算结果在逻辑上的正确性,而且还有输出结果时间的及时性。目前,实时系统已经广泛应用在军事和民用领域