论文部分内容阅读
在大数据时代,热点事件的发生、发展和高潮、消亡越来越快速,影响事件发展的因素趋向复杂,事件涉及信息更加多样。面对海量、复杂和快速更新的多媒体信息,如何有效剔除冗余,把握热点事件发展轨迹和影响因素,成为理解、引导和控制热点事件发展需要解决的重要问题。本文以网络热点事件为研究范畴,以热点事件所涉网页、图像、视频等多种媒体的分析为研究对象,首先分析提出了热点事件的处理方法和时序可视化模型,在此基础上重点研究了文本模型、特征选择、文本分类等关键算法并进行了实现。论文的主要贡献体现在以下几个方面:(1)提出了网络热点事件时序的可视化模型。本文在分析围绕网络热点事件的多种时序特征的基础上,从覆盖媒体时序性、相关性、高层统计特征、空间地理特征等角度,提出了网络热点事件时序可视化模型。模型以集成多媒体的层次河流图、成分标签云图和空间态势图为核心内容,实现以主要涉事方为主体,对涉及事件的关键内容进行实时表现和演变跟踪。(2)提出了一种基于改进TF-IDF算法的特征选择方法。采用SVM分类方法,利用训练集构建的有效分类器,将新闻分为多种既定类型。为提高分类效率和精度,改进了TF-IDF特征选择方法,根据网页新闻报道的“倒金字塔”结构,将新闻文本分为两部分,分别定义不同的权值比重,并运用在分类中。改进方法能够根据不同部分新闻特征词的信息熵计算特征项的权重,从而提高了文本分类的精度。(3)提出了一种基于词频统计规则的命名实体识别方法。结合网络热点事件报道的特征,根据事件中标题和正文中的相应词频信息,提出了基于词频统计规则的命名实体识别方法,对特定的网络热点事件的信息提取具有一定效果,运算速度快,为热点事件主体行为的空间态势演示提供数据支撑。论文最后构建了网络热点事件时序可视化系统,集成了以上各项算法,实现了可视化环境,可综合表示多种时序信息。验证了本文所提出的可视化模型的有效性,为研究的应用提供了基础。