基于复杂网络的微博数据挖掘

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:xpzcz1990
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据挖掘技术的发展受到了越来越多的关注。而所谓的数据挖掘一般是指采用一定的技术手段,在海量的数据中发现其中隐藏的、具有特殊关系或潜在价值的非平凡过程。目前,数据挖掘已经应用在客户分析,风险控制,金融投资,经济预测监控等多个领域,为人们的生产生活创造了巨大的经济和社会价值。随着近些年微博服务的快速发展,人们生活中的很多重要信息已经逐渐蕴藏在这个平台之中。在面对微博中的各种复杂信息时,如何将其中的有效信息挖掘出来成为一个困扰我们的难题。所以,针对微博的数据挖掘研究就显得尤为迫切。本文根据复杂网络的相关理论知识,结合微博信息的具体特性,对新浪微博的复杂网络特性进行分析研究,并根据其复杂网络特性提出一种适用于微博用户的社团结构发现算法。同时,本文还重点针对微博用户兴趣图谱的建模工作进行研究。在以往的微博用户兴趣建模算法中,往往只利用用户自己所发布的内容来进行数据挖掘分析。因为用户发布的微博大部分都与自己擅长的事情有关,并不能反映其真实兴趣,所以本文引入边信息的概念,提出一种新的用户兴趣建模算法。首先根据LDA算法提取出用户的兴趣特征,再根据用户间的复杂网络特性和好友关系以及特征传播原理对兴趣特征进行处理,最终得出用户对于不同领域所感兴趣的概率分布,进而获得用户的兴趣模型。本文的创新点和贡献在于:论文中提出的社团发现算法和兴趣建模算法都能更好的适用于微博数据分析。同时,相对于传统的兴趣建模方法,新算法可以更好的进行用户兴趣分析,解决了用户兴趣建模时兴趣点过于单一的问题。
其他文献
由产肠毒素型大肠杆菌引起的仔猪黄白痢和由魏氏梭菌引起的仔猪红痢是影响猪体健康的常见疾病,可严重影响仔猪的存活率和出栏率,给养猪业造成了巨大的经济损失。 本文采用
该论文是基于轴电部科学基金项目"彩色图像的神经网络矢量量化压缩编码研究"进行的.作为系统实现的基础,首先介绍了遗传算法和神经网络的基本理论.随后,该文分别探讨了将遗传
该文通过对直接扩频码分多址蜂窝移动通信的接收理论,主要是多用户检测技术的研究。提出了一些新的检测方法。
棉纤维是最重要的纺织原料之一,它是由单个胚珠表皮细胞分化而来。纤维的发育历经纤维起始、纤维伸长、次生壁增厚及脱水成熟四个互有重叠的阶段,整个发育过程约需55天。纤维细
随着综合业务数字网的研究和发展,在研究的过程中,如何使现有的综合业务数字网与现有的一些通信网保持互通,也就成为人们关心的问题.该课题是国家经贸委确立的九五重点科研开
该文重点分析了基于小波变换而发展形成的两种非线性噪方法:基于模极大值的信号噪法和阈值噪法.两者都是依据信号和噪声在小波变换域内的不同特征,消去噪声的小波变换系数来
该文介绍了基于有线电视现在HFC网络的单向数据广播系统的研制.作者在该系统的研制中的工作是担任硬件开发.开发拄杨果为两张微机插卡,分别为电视台端的发送卡与用户端的接收
该论文的研究目标是将神经网络和模糊理论应用于图像信息处理以实现景物图象中文字及其它目标的自动识别.针对图象识别过程的各个阶段,包括原始图象的分割和文字目标图象的提
数字音频广播是欧洲尤里卡-147计划开发的数字广播系统,可为固定、便携、移动接收提供高质量的声音信号和数据信号.它不仅是FM广播未来的替代者,而且也是一种新的广播系统.数
实现数字图象、数字话音和低速异步数据三者在一条通信信道上的多路复用和解复用器,是数字电视传输系统中的一项关键设备.该文首先综述了几种用于会议电视系统的多路复用器的