论文部分内容阅读
随着互联网和通信行业的快速发展,微博、微信、QQ、MSN、BBS等新兴媒体的流行使得人与人之间的沟通变得前所未有的方便。如今,微博已经成为人们发表意见和交流情感的主要平台。然而,微博也是一个鱼龙混杂的新兴媒体,新事物、新信息在微博动态信息流中层出不穷,同时,大量色情、暴力、谣言、反动等不良信息也通过微博发布并传播开来,因此,针对微博的信息处理变得尤为重要。微博上涌现出来的大量流行词,一定程度上反映了人们在某段时间内所关注的热点话题以及对某一话题所表达的观点,也反映了社会发展动态。然而,传统的网络流行词抽取方法不具有较高的精确率,需要一定程度的人工干预,并且找出的流行词没有统一的标准,不具有很强的事件相关性和可预测性。
本文围绕如何考虑微博中流行词的特点应用于流行词抽取,和如何准确有效地抽取微博中的流行词这两个核心问题展开研究,主要工作如下:⑴分析了2008-2012年的十大网络流行词以及两个微博话题集中抽取的流行词的特点,给出了变异流行词的定义。⑵提出了一种面向微博的变异流行词抽取方法:第一步,采用基于重复串查找的方法找出所有候选词串;第二步,运用重复串性质和语言模型对候选词串进行过滤,通过流行词评分模型获取流行词;第三步,结合词语角色关系和词语结构模式两种构词特点抽取出候选变异流行词;第四步,根据事件相关性判定,筛选出变异流行词。在由42483条微博构成的数据集上运行的实验结果表明,该方法能准确有效地抽取出变异流行词。