中文微博的话题相关性分析研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:a9y3s118x3f
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0的发展,微博等社交媒体逐步成为了人们获取网络信息、了解社会动态的主要平台。微博信息主要由个人用户发布、信息通过人与人的社会交互共享,这使得微博呈现出数据规模大、信息质量参差不齐、话题实时更新等特点。如何在这些庞大冗余的微博信息中筛选出热门话题、摘取出有价值的信息片段,对于面向互联网络的信息处理具有重要的意义。本文首先研究了Hashtag话题相关性分析问题。Hashtag是微博文本中的一种主题标签,发布者可以利用Hashtag机制标注微博涉及的话题。微博平台基于Hashtag聚合微博,能帮助用户在海量微博数据中发现热点话题。但Hashtag由用户创建的特性使得不同的Hashtag可能代表着同一个话题,挖掘Hashtag之间的话题相关性将有助于热点话题发现。因此在分析了微博内容特征及结构特点的基础上,本文抽取了Hashtag文本特征、微博内容、Hashtag出现次数-时间分布以及Hashtag共现等一系列特征,用于分析Hashtag之间的话题相关性。在新浪微博数据上的实验结果显示,这一系列特征组合能较好地帮助Hashtag话题相关性分析。为了摘取出有价值的信息片段帮助用户快速了解话题的各个方面,本文进行了微博话题、子话题的关键词抽取研究。基于短文本聚类的方法,本文对同话题微博进行聚类以发现各个子话题,并利用关键词抽取技术分别提取了话题、子话题的关键词。实验表明,抽取微博话题及子话题的关键词可以方便地展示话题的主体以及不同侧面的信息,较好地解决了微博数据规模过载使得用户无法及时掌握热点信息的问题。
其他文献
基于事例的推理(Case-Based Reasoning,CBR)作为基于知识的专家系统(Expert System)的一个分支,它是目前人工智能(Artificial Intelligence)研究中一种正在迅速发展的推理方
网格作为一种新兴的将在未来起重要基础作用的技术,其安全性是其核心问题,决定着网格技术能否得到广泛的应用。 网格认证是网格安全技术中的重要问题,防止数据在网格上传
近年来,计算机在交通控制、通讯网络等各个领域得到了广泛的应用。支持上述应用的基础理论问题为求解该领域内的NP完全问题的实用与快速算法,对上述领域内NP完全问题的快速算
企业信息化技术发展到了今天,企业信息门户(EIP)现在已经成为企业最关注的领域之一所谓门户就是一个基于web的系统,提供单一访问入口来访问后台应用程序和不同来源的各种资源
随着信息技术的飞速发展,各种媒体的数据量都呈爆炸性增长趋势,数字音乐随处可见并且与日俱增。与此同时,各种音乐应用也极大促进了信息技术的前进步伐,例如音乐共享使得古老的对
论文主要做了以下几方面的工作:1.将向量滤波算法应用于干涉图的处理。向量滤波算法能够快速有效地降低干涉图中的噪声,在消除噪声的同时还能够保持干涉条纹的方向性、清晰度和
工作流技术是进入90年代以后计算机支持的协同工作领域的一个新的研究热点,深入研究工作流技术对于提高企业和政府部门的信息化程度、运作效率以及竞争能力都有着重要的意义
网格是构筑在互联网基础之上的新兴分布式计算技术。它通过整合分布在各地的计算、存储和通信资源,为动态变化的虚拟组织的成员提供更为广泛的资源共享。如何在这种成员关系
在现有的道路照明路灯中,大多数的太阳能路灯控制器都属于单灯控制器,不能实现联网,这使得路灯管理需要采用效率低、实时性差的人为巡检方式,大大提高了路灯的维护成本。更重
随着图像采集技术的进步与发展,在医学临床诊断与治疗领域涌现出多种成像设备,为医生提供了多种不同特性的医学图像,这些来源于不同成像设备的图像称之为多模态图像。这些不同模