论文部分内容阅读
由于社会的高速发展以及人们对自然界的不断破坏,近些年来自然灾害频发,因此对于灾情的检测和对灾情的快速支援显得尤为重要。凭借高速发展的互联网技术,信息交互逐渐向新型的网络社交媒体发展,新浪微博正是这样一个可以自由发表言论,实时报道新闻事件的平台,因此受到了大多数人的亲睐。通过分析人们在微博上发表的有关自然灾害的事件或是意见评论,就能够掌握灾情的发展和舆论的走向。然而微博上每天产生的信息数以亿计,文本内容又较短,噪声数据更是不计其数,因此如何发现并提取这类特定的事件显得十分重要。传统的文本分析技术针对这类问题还不能完全适用,因此基于微博这类短文本的话题检测和自动摘要技术成为近些年研究的热点。(1)针对传统算法精度较低、话题表示结果不够具体形象等问题,本文在话题检测方面提出了一种新颖的基于图分析的话题发现方法(Topic Detection based on Graph Analysis,TDGA),该方法考虑到新浪微博文本的特殊性,采用针对短文本的特征词过滤模型和图生成算法,以满足话题检测和社区发现的双重要求。利用社区发现算法来检测由微博数据处理而成的特征词图中的话题。最后,我们在新浪微博中采集的自然灾害数据集上验证了本文的方法,其中大约有三千多条微博帖子。实验结果揭示了特征词与自然灾害话题之间的关系并且证实了该方法的可扩展性和准确性。(2)本文针对话题内容零散,语义不连贯等问题,提出了一种基于话题的自动摘要生成算法(Topic-based Automatic Summarization Algorithm,TASA),目的在于以一句话的形式展示话题内容的最终结果。首先,利用话题发现算法中得到的话题词和特征词的句子能量排序算法对原始微博文本数据进行过滤和排序,这也是最重要的一步。然后,选择得分最高的句子并进行润色处理,通过完善一些缺失或者冗余信息来达到句子含义的简洁性和丰富性。因此,可以使用这样的句子在描述每个话题的同时实现话题的自动摘要。实验结果证实,本文提出的基于话题的自动摘要算法反映了话题句与自然灾害之间的确切关系,语义信息丰富。更重要的是我们几乎可以从话题句中掌握这些自然灾害的基本要素,从而帮助政府指导灾害救援。