基于容错粗糙集的微博热点话题发现研究

来源 :云南财经大学 | 被引量 : 0次 | 上传用户:ilytotti
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
热点话题是在具体时间段内发生的,能够引起人们广泛关注的不同领域中的话题。微博热点话题是以微博为应用平台的热点话题。微博是以用户关系为基础进行信息分享和传播的平台,具有很强的互动性。其自身特征使微博用户拥有信息接收者和发起者的双重身份,这一身份特征促使微博上的消息在网络上迅速、及时地传播,某些突发、热点事件的话题便常常会在这时表现出来。热点话题的发现不仅能够帮助人们快速了解某段时间的社会热点,更有助于管理人员及时地发现社会舆情,并进行正确引导。微博具有开放性和互动性,每天都有海量信息涌现,且具有文本内容短小、信息含量少、用词不规范等特点,使得运用传统热点话题提取方法对微博平台上的热点话题进行发现时力不从心。鉴于此,本文所做工作主要包括以下方面:(一)根据微博信息传播特征,对传统的容错粗糙集模型进行扩展,提出了基于微博特征扩展的容错粗糙集模型。传统的容错粗糙集模型是基于一些属性的协同出现构造某个概念的上近似和下近似集,实现属性的约简或扩张,由于容错类的建立过于宽松,会导致准确度和有效性很低,不适宜直接应用于本文环境。因此,结合微博具有的转发、评论等特征,对传统容错粗糙集模型进行改进。(二)采集新浪微博消息作为语料,分析语料自身特点,并将其表示成基于微博特征的容错粗糙集文本表示模型。本文在分析研究微博消息语料自身特征时发现直接运用已有的文本表示模型,存在文本表示稀疏性问题,基于此,本文使用基于微博特征扩展的容错粗糙集模型,构建文档集表示模型,并根据提出的文本表示模型扩展特征项权重的计算方法。(三)提出一种增量式凝聚层次K-means聚类算法,进行微博热点话题发现,有效克服K-means算法初始聚类中心选取较为敏感及层次聚类算法复杂度较高的问题,对话题热度度量公式进行改进。
其他文献
目前软件定义网络架构(Software-Defined Networking,SDN)存在流表项资源消耗与控制器负载过大等问题。这些问题会直接影响到网络的转发能力和扩展性。分段路由技术的核心思想是
交互式问答受到了越来越多的关注。但交互式问答中存在着各种各样的语言现象,这些现象使得计算机难以充分理解用户的提问,指代现象就是其一。近年来,国内外许多学者对指代消解进
随着计算机技术和网络技术的飞速发展,蒙古文信息处理的工作也取得了很大的进步。但是由于蒙古文国际标准编码出台的相对滞后,目前市场上各种软件厂商采取自己的编码标准,使
个性化推荐服务可以根据用户的兴趣为用户提供个性化的推荐项目和商品。协同过滤推荐技术是其中应用最广泛和常用的技术。随着协同过滤技术的不断发展,协同过滤的作为推荐技术
近年来各领域对高性能计算的需求与日俱增,服务商为了迎合计算需求通常需要在硬件资源上投入大量资金,而大部分平台的资源利用率却并不高,故集群资源的有效利用成为一个亟待解决
强化学习是一类重要的机器学习方法,强化学习具有两个重要的特征:算法可以在不知道环境的全部模型时,求解模型未知的最优化问题;强化学习强调Agent与环境的在线交互,在交互过程中
在对土壤-植物-大气连续体(SPAC)系统的研究中,土壤植物系统是一个重要的子系统。植物根系的研究又是土壤植物系统研究的重中之重。从生物角度讲,植物根系能直接反映植物的生长状
随着大数据时代的到来,对大数据的挖掘、分析、可视化已经成为当今时代的迫切需求。数据可视化综合运用计算机图形学、图像处理、人机交互等技术,以图形图像的方式表现和传达数
面向移动终端的复杂三维场景实时交互技术是计算机图形学与虚拟现实的热点之一,但是现有的手段仍不能满足终端上复杂三维场景的高真实渲染的实时应用要求。为了解决手持终端上
社会化推荐系统随着社交网络平台的流行以及用户对社交媒体的重度参与,成为了社交平台中信息过滤的重要手段,广泛地应用于各样的社交平台及电子商务领域中,成为当前推荐系统研究