面向微博的变异流行词抽取方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:freesown
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和通信行业的快速发展,微博、微信、QQ、MSN、BBS等新兴媒体的流行使得人与人之间的沟通变得前所未有的方便。如今,微博已经成为人们发表意见和交流情感的主要平台。然而,微博也是一个鱼龙混杂的新兴媒体,新事物、新信息在微博动态信息流中层出不穷,同时,大量色情、暴力、谣言、反动等不良信息也通过微博发布并传播开来,因此,针对微博的信息处理变得尤为重要。微博上涌现出来的大量流行词,一定程度上反映了人们在某段时间内所关注的热点话题以及对某一话题所表达的观点,也反映了社会发展动态。然而,传统的网络流行词抽取方法不具有较高的精确率,需要一定程度的人工干预,并且找出的流行词没有统一的标准,不具有很强的事件相关性和可预测性。   本文围绕如何考虑微博中流行词的特点应用于流行词抽取,和如何准确有效地抽取微博中的流行词这两个核心问题展开研究,主要工作如下:⑴分析了2008-2012年的十大网络流行词以及两个微博话题集中抽取的流行词的特点,给出了变异流行词的定义。⑵提出了一种面向微博的变异流行词抽取方法:第一步,采用基于重复串查找的方法找出所有候选词串;第二步,运用重复串性质和语言模型对候选词串进行过滤,通过流行词评分模型获取流行词;第三步,结合词语角色关系和词语结构模式两种构词特点抽取出候选变异流行词;第四步,根据事件相关性判定,筛选出变异流行词。在由42483条微博构成的数据集上运行的实验结果表明,该方法能准确有效地抽取出变异流行词。
其他文献
片上多核处理器(Chip Multi-Processor, CMP)已经成为高性能微处理器的发展潮流。高速缓存作为处理器与主存之间的重要桥梁,在计算机系统的性能优化中发挥着重要作用。一种能
在计算机图形学中,三维模型通常使用三维网格表现。网格模型凭借着其直观、生动的表现形式,广泛应用于游戏开发、影视制作、工业制造和旅游景观等领域。然而,较大的网格模型受到
云计算的大规模发展以及云服务在终端的按需供给,使得人们越来越多的感受到云计算提供的便利。伴随着环境的动态化、服务的多样化和用户需求的个性化,云环境下的服务选择问题日
随着多模式人机交互技术的发展,手语识别的研究也得到了越来越多的重视。然而传统的、基于计算机视觉的手语识别技术很难实时捕获手的姿势和位置。2010年11月微软推出Kinect作
云计算是当前信息技术领域的热门话题之一,是产业界、学术界等各界均十分关注的焦点。但是,云计算的发展面临许多关键性问题的挑战,而安全问题首当其冲。随着云计算的不断普及,安
图像相似性在基于内容的图像检索、图像匹配、图像识别和图像拼接等领域有着广泛的应用,大多数关于图像相似性的研究都包含在图像检索、图像配准和图像识别等领域的研究中。
图处理系统作为一种大数据分析工具被用到很多领域中,在图规模不断增大的背景下,对处理系统的扩展能力与并行性提出越来越高的要求,一方面要采取分布式架构实现横向扩展,另一方面
社交网络服务已经成为非常重要的Web服务,它为用户提供与朋友互动的基于互联网的平台。随着支持位置感知的硬件和软件技术的进步,社交网络服务与基于位置的服务相结合形成移动
随着信息时代的到来和深入,计算机技术已经在各行各业中得到了广泛地应用。但随着计算机软件系统的普及和规模的不断增大,其安全性问题也越来越突出。提高软件可靠程度的方法有
云计算是当前信息技术发展的一个重要趋势,它通过远程资源访问使得中小型企业和个人用户能够以相对便宜的价格和便捷的方式获得计算和存储资源。目前云计算已经获得很多大公司