基于微博挖掘的流行趋势预测

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:acshixiaoguang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着Web 2.0和移动互联网的飞速发展,互联网上涌现了大量的社交网络平台。微博作为其中一种社交网络平台,以其高便捷性、高原创性、强交互性和强草根性的特点吸引了大量用户,成为人们生活中获取与分享信息的重要平台。研究如何及时准确地预测微博未来的流行趋势,对内容推荐、广告营销以及舆情监控等领域都具有重要意义。本文以新浪微博为研究对象,对微博流行趋势预测进行了研究,具体工作如下:1.分别分析了内容、时序和网络这三类因素对微博转发过程的影响。实验结果表明,不包含链接的微博更容易被转发;微博中提及的人数越多,其最终转发数的分布范围越小,且转发数都比较少;不同时间段发布的微博,其最终转发数差别较大;微博最终转发数与其最小转发时间间隔之间存在一定的负相关性;初期曝光量较小的微博,其最终转发数的分布范围也较小,且大部分的转发数都较少;微博最终转发数与其早期转发网络的链接密度之间近似呈现负线性相关。2.分析了现有研究中常用微博特征存在的不足,然后在此基础上从微博的内容、时序和网络三个方面提取了一系列新特征,将新特征与常用特征相结合,对逻辑斯蒂回归、朴素贝叶斯、支持向量机和随机森林等分类模型进行训练并对目标微博的流行度范围进行预测。实验结果显示,在加入本文提取的新特征后,这四种模型的预测正确率分别提高了1.91%,14.80%,2.92%和6.92%。3.将提取的微博特征应用到基于相似度的微博流行趋势预测方法中,给出了基于加权马氏距离的微博相似度计算方法,根据提取的微博特征选取与目标微博最相似的6)条历史微博,将其加权平均流行度作为目标微博的最终流行度。在此基础上,还利用粒子群算法对选取的历史微博数量和特征权重进行了优化。实验结果显示,与仅使用常用特征时的最优结果相比,相对绝对误差降低了0.0801,正确率提高了9.00%;与未经过粒子群算法优化的方法相比,相对绝对误差降低了0.0640,正确率提高了6.00%。
其他文献
随着计算机无线网络技术的迅速发展,无线局域网(WLAN)不断提高的传输能力和高效的移动能力已成为通信领域的一个重要发展产业之一,被人们越来越关注,并广泛应用于各个领域。  
P2P (Peer-to-Peer)对等网络已经成为Internet中最重要的应用系统之一。然而,P2P具有的开放、匿名以及松耦合等特性,使得网络系统的安全面临着巨大的挑战,由此导致不可靠的服
无线局域网(WLAN)因其移动性、灵活性和经济性的特点,目前已得到广泛的发展。随着无线局域网的用户越来越广泛,其安全性的不足也渐渐凸显出来,成为制约其发展的一大要素。目前的
计算机断层扫描成像技术是医学成像领域的常用方法,心脏断层图像可视化是医学图像分析中的热点研究问题,旨在提供更加直观的人体心脏的三维信息。论文针对左心室形态和断层数
进化算法是一类通过模拟自然界中物种进化过程与机制来求解优化与搜索问题的一类自适应、自组织、自学习的人工智能技术。该算法基于这样的基本认识:“从简单到复杂、从低级到
近年来Web Services作为一种新技术广受关注。Web Services中的接口定义语言WSDL和内容传输格式SOAP已经成为W3C的草案和建议标准。然而,在实际应用中,单个Web服务通常无法满
随着网络和计算机上各种结构化数据的迅速发展,需要访问关系数据库查询信息的用户数量急剧上涨。然而传统的查询方法需要用户知道SQL查询语句和数据库模式;人们希望能够在关系
数据挖掘是计算机科学的一个领域,目的是通过分析快速增长的商业、科学和工程数据来获取知识和其他利益,这个领域正在迅猛增长和发展。关联规则的挖掘是数据挖掘课题中的一个
目前,大多数搜索引擎系统都是基于用户关键词查询的信息检索系统。在使用这类搜索引擎查询信息时,主要通过匹配用户输入的查询关键词进行检索。由于用户输入查询词的数目有限
随着计算机技术与通信技术的迅速发展,信息化社会进程的加快,计算机已经成为人们工作与生活中的重要工具。考试是教学过程中一个极其重要的环节,而试卷是考试的重点,试卷如果