社交媒体中用户话题兴趣建模与挖掘研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:tgw2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年,随着社交媒体网站的兴起,用户已经成为互联网中的核心元素。对于互联网公司,能否吸引到足够数量的用户往往会决定一个网络应用服务的兴衰,因此如何面向用户设计与打造服务成为这些公司重要的发展方向;对于互联网用户,社交媒体的重要性越来越大,已经成为很多用户日常生活中必不可少的一部分,同时用户对于社交媒体服务的需求也在不断增加。在这种用户为导向的互联网大环境下,对于社交媒体中的用户兴趣进行深入理解和挖掘是一个非常重要的科研方向,具有重要的学术、应用和社会意义。本文主要关注面向文本内容的社会化媒体,研究用户的话题兴趣。  社交媒体随着科技发展不断演化和升级,为开展用户话题兴趣研究同时带来了挑战与机遇。首先,社交媒体中文本内容繁杂、社交链接关系复杂、用户行为多样,这些都给用户兴趣建模带来了很大挑战。面临科研挑战的同时,也可以看到社交媒体为研究用户兴趣带来一个很好的平台:社交媒体提供了丰富的、持续的、海量的用户信息。  本文形式化地定义了用户话题兴趣,并且识别了用户话题兴趣建模中的三个关键问题:(1)用户兴趣点抽取;(2)用户兴趣点表示;(3)用户兴趣权重学习。围绕着这三个关键问题,本文充分合理地使用了社交媒体中的数据资源,对于用户话题兴趣建模与挖掘进行了深入研究,具体的创新点总结如下:  1.本文对于一些社交文本建模中重要的共性问题进行提炼和总结,提出一系列主题建模技术,以改善用户话题的抽取,对于后续相关工作具有重要的参考意义。主要提炼出四种关键技术,分别为短文本聚合、主题信息局部一致性、词汇去噪、引入监督信息。短文本聚合是为了解决短文本长度过短的问题,按照用户进行微博聚合,可以大幅度改善用户兴趣学习;主题信息局部一致性可以改善抽取的话题一致性,并且能够建立起词汇之间的主题背景共现关联性;词汇去噪可以改善得到的话题质量,提高模型效率;而引入监督信息可以用来改进特定任务的效果,如区分主题词汇和情感词汇。针对微博数据,本文基于前三种技术提出了Twitter-LDA模型,在多项评测指标上都获得了不错的效果,而且便于计算微博数据上主题相关的统计量:针对在线评论数据,本文联合这四种技术,精心设计了一种融合最大熵组件的MaxEnt-LDA主题模型,该模型可以有效区分主题词汇和情感词汇。  2.本文提出一系列主题语义表示的方法,改善了用户话题的可解释性,使得主题模型的结果可以更容易在实际应用中被理解。对于微博短文本,本文结合主题模型和关键短语各自的优点,使用主题短语来进行微博中的用户话题压缩摘要,同时具有主题模型的语义一致性和关键短语的语义完整性。本文的主题短语抽取方法,同时融合了主题信息和用户兴趣特征。对于在线评论数据,本文结合情感摘要的具体需求,提出使用主题情感摘要,可以在主题语义聚类的同时,进行主题词汇和情感词汇的区分。特别地,本文提出使用主题特定的情感词汇,不同于通用的情感词汇,主题特定情感词汇与对应主题具有更强的关联性,可以提供更为具体、生动的情感语义修饰。对于主题模型抽取的话题进行语义表示的工作还相对较少,所提出的方法是后续工作的重要研究基础。  3.本文提出一种基于关系二部图正则化的用户兴趣学习框架,并且针对社交链接关系的特点提出了一种新的聚类假设:链接结构假设。该假设可以更好地挖掘链接关系相似性来刻画用户兴趣之间的关联性。社交媒体中交互链接关系具有稀疏性、有向性和动态性等特点,传统关系建模方法不能很好地处理这种关系数据。为了解决这些特点对于关系挖掘所带来的困难,本文提出使用关系二部图中链接结构的相似性来捕捉用户兴趣间的关联。在链接结构假设中,两个兴趣相似的用户之间未必有边直接相连,而是在局部图上具有相似的子结构特征。本文主要关注出链和入链两种子结构特征,并且提出了一种通用的关系正则化学习框架。通过实验验证,比起传统的聚类假设,该框架结合链接结构假设可以更好地利用社交媒体中的交互链接关系来改善用户兴趣学习。特别地,本文还从实践应用的角度给出一些效率优化方法,使得模型具有很好的可应用性。  4.本文借鉴社会角色理论中的思想,使用角色这一重要概念来刻画用户在社交行为中的模式特征,并且将角色融入到用户兴趣和交互行为建模中,提出一种基于角色化的用户兴趣主题模型。本文发现同一个用户扮演不同社会角色时会对应着不同的话题兴趣分布。基于这些发现,本文提出使用角色化的用户兴趣分布,对于一个用户,每一种角色对应一种特定的兴趣分布。在交互过程中,用户角色特定的兴趣会受到其他参与用户的影响,角色化在社会交互中得到了自然体现和刻画。本部分的工作打破了之前用户兴趣建模的一个思维定势:一个用户只使用一种兴趣分布来刻画。这种多角色的建模思想对于深入理解用户兴趣和行为具有很大的研究意义。通过引入角色这一概念,本文提出的主题模型具有非常清晰的生成过程,大大加强了模型自身的可理解性。本文对于社会角色理论中的重要思想进行了初步的形式化建模,这是文本挖掘工作中的跨学科尝试。同时在微博数据和在线社区问答数据上进行了各种定量和定性实验,实验结果有力地说明了提出方法的有效性和可应用性。
其他文献
随着Internet的飞速发展,人们对全球网络数据的访问需求也急剧增加,指数级增长的用户请求给流行的WEB站点提出了前所未有的挑战.如何提高WEB站点的服务性能,为网络客户提供有
该文以指纹自动识别系统(Automated Fingerprint Identification System,简称AFIS)的处理流程为线索,详细讨论了基于结构特征的指纹识别系统及其匹配算法.该文的指纹识别系统
因特网已经为普通的计算机用户在家中,在商业上,以及在教育领域提供了大量而有效的信息.对于许多人来讲,对这些信息的访问已经不再是难不可及而仅仅是一项普通的技能.然而,当
本文结合中国铁路的实际,介绍了分布式信息共享平台技术;从技术的角度切实地考虑在广域网环境下大型业务处理系统信息化过程中如何实现互操作性,解决“信息孤岛”问题,达到信息共
随着社会对软件需求的不断增长,正在使用和开发的软件数量与日俱增,许多软件的规模变得越来越大,这些软件的维护问题成为了当前软件产业面临的重要问题.能否准确、迅速、全面
该文重点讲述了系统的功能模块需求分析;介绍了系统体系结构及特点,实现系统所用到的数据访问技术和COM组件技术的原理及包容与聚合模型;详细讲述了系统操作模块和分析模块的
该文对文本分类进行比较全面和深入的研究,提出了若干理论和方法.主要工作和创新成果可以概括为如下四个方面:1.提出自动最优阈值设定方法:该文提出的自动最优阈值设定方法通
该文针对制造企业中生产类型众多,内部物料管理复杂等问题,结合CERP主动成本控制的管理理念对制造企业供应管理模型及供应管理优化算法等方面进行了系统的研究工作,主要研究
任何一种产品都是一种或多种功能实现的技术承载体,功能的创新是专利产品创新的核心,决定该产品的应用价值和发展方向。作为发明创造中,集技术、法律、经济信息为一体的特殊的文
随着嵌入式系统的广泛应用,其质量问题逐渐成为影响整个项目进度和质量的关键.软件测试作为保障软件质量的重要手段,正在引起越来越多的重视.由于自身的特点,嵌入时软件的测