【摘 要】
:
近年来,随着Web2.0的快速发展,社会网络越来越普及,Twitter和Weibo等微博客被广泛使用,并产生了巨大的社会影响力,改变了人们的生活方式。微博中有数以亿记的用户,用户的身份
论文部分内容阅读
近年来,随着Web2.0的快速发展,社会网络越来越普及,Twitter和Weibo等微博客被广泛使用,并产生了巨大的社会影响力,改变了人们的生活方式。微博中有数以亿记的用户,用户的身份也各不相同,其中有名人机构,也有草根大众。如何从这些海量的用户中发现与主题相关的专家用户是一件很有挑战的事情。本文以新浪微博平台为基础,通过用户标签数据和用户关注关系数据来挖掘用户的专家属性。本文通过调查统计分析,发现微博用户朋友之间兴趣趋同的特点,提出同质性假设。针对微博用户标签数据缺失、标签数量少、信息含量低等问题,本文提出改进的TF-IDF模型,过滤低信息含量的用户自标签,并基于同质性假设,设计一种标签传播算法来扩展用户的兴趣标签,形成用户的兴趣图谱。通过用户的兴趣图谱,给用户关注关系附上相应语义信息,以此为基础,利用众包的策略来推断话题专家。根据微博网络中的二八原则,即20%的用户产生80%的内容,本文把微博网络中的用户分为核心群体和辅助群体两大部分。在兴趣图谱基础之上,本文根据特定话题构建局部网络,提出基于用户分级的SALSA算法来计算用户的话题影响力,推断用户的专家属性,并根据微博平台固有特点,提出多特征融合模型,提高检索精度。本文实验基于新浪微博真实数据集,包括用户属性、用户关系网络等信息,并人工标注测试集。在该数据集上对兴趣图谱挖掘和基于用户分级模型进行验证。实验结果表明,扩展兴趣图谱大幅度提高了检索精度,在扩展兴趣图谱后,用户分级模型精度也有较大提高。同时,本文提出的方法具有良好的可扩展性。
其他文献
终身化学籍管理系统是针对基础教育,面向各级教育机构的学生信息管理系统。本系统不仅能详尽地记录学生在校的各种信息,并对收集的数据进行即时分析汇总,而且能实现学生从幼儿园
随着Internet技术和嵌入式系统的迅猛发展,嵌入式Internet在家电、工业控制等领域得到了越来越广泛的应用。本文运用嵌入式Internet的基本理论和方法设计和实现了一个瘦TCP/IP
面向服务的计算(Service Oriented Computing,简称SOC)为分布式计算提供了一种新的方式,在SOC模式下,一个任务通常需要不同服务的协作来完成,并且这样的协作经常需要第三方来
本文首先从逻辑上阐述了网格安全中需要解决的问题,并介绍和分析了有代表性的几个网格安全解决方案:包括GSI,CAS, VOMS,Akenti和PERMIS系统。通过对这些方案统一的介绍和分析,可
随着全球信息化产业的迅猛发展,全球的广播电视行业正在发生着翻天覆地的变化,数字电视顺应时代发展,冲击着用户的视觉和听觉。数字电视作为即将在全国范围内开展的信息业务,如何
计算流体力学(Computational Fluid Dynamics,CFD)在航空航天型号设计、地面交通工具设计等方面广泛应用,是典型的高性能计算应用领域。为了提高CFD应用程序的性能,必须对CFD
本文针对现有三维多剑杆织机的织边机构进行了研制,并且对其工业化应用进行了设备的改进和控制系统的开发。 在织边机构的研究过程中,首先提出了三个备选方案,通过实验对
本文主要针对数字水印技术及其在多媒体版权保护和认证中的应用进行研究和探讨。本文首先概述了数字水印技术的来历,接着介绍了数字水印技术的分类、应用及研究现状,并针对水
如何对一个特征领域进行快速有效的软件再工程,是当前软件工程领域所关注的一个重要课题,本文主要通过对软件复用、软件构件和软件再工程的技术和方法的全面阐述,研究了一种
实体求交是实体造型领域最为重要也最为复杂的问题之一。本文主要针对实体造型系统中连续变化的等距曲面求交问题进行研究。通过分析连续变化等距曲面的特征信息,提取连续变