论文部分内容阅读
随着互联网的迅猛发展,网络上的信息量也急剧地增长,网络新闻成为人们获取信息的主要方式之一。面对浩瀚的网络新闻,人们需要有一种方式能够准确、快速地从海量数据获取有用的信息,尤其是近期一段时间发生的热点事件、敏感信息等。如何挖掘、分析和监控热点信息,已经成为当前研究者的一个研究热点。本文通过话题检测和情感分析技术,来进行互联网新闻报道的热点分析。使用话题检测技术,自动形成一系列话题,对这些话题进行热度分析形成热点话题,以各种方式将这些热门话题呈现给用户。同时,将情感分析技术结合进来,分析报道及话题所对应的评论的极性倾向和强度,从而得出广大网民对某个话题的看法,便于决策者做出决策。将两者结合起来,不仅可以有效地检测热点话题,还可以识别出人们对该话题的看法和评价。本文的研究内容主要有以下几个方面:(1)提出一种基于多向量相似度计算和二次聚类的话题检测算法,该算法能够利用人物信息和地点信息来进行报道之间的区分,同时能够利用报道的时间聚集特性,将同一天的报道首先进行局部聚类,再与旧话题进行归并聚类。实验表明,该算法具有较好的效果。(2)提出一个计算话题能量值的算法,该算法主要用于评价话题的热度以及淘汰过期话题。同时,针对话题的特性,提出一种称为TF-IToF(Term Frequency-Inverse Topic Frequency)的话题关键词抽取算法,该方法用于抽取最能代表话题的关键词组。实验表明该算法的抽取效果较好。(3)提出一种基于HowNet和PMI相融合的词语极性计算方法,该方法知网同义词扩展、知网相似度计算和PMI共现概率计算等技术,能够解决某些词汇在语料库中出现频率低的问题。实验表明,该方法具有较好的效果。基于以上研究成果,本文设计并实现了互联网新闻热点监控系统,该系统能够有效地为用户提供最新、最热的互联网新闻热点话题以及对这些话题的分析结果,从而实现对互联网热点舆情的分析和监控。