论文部分内容阅读
作为一种新兴的社交媒体,微博以其便捷快速的交互方式与实时动态的平台特性,受到了越来越多网络用户的青睐。用户可以在该平台上自由地发布帖子,跟随其感兴趣的用户以及快速地浏览网络信息。趋势话题的出现使用户的微博生活更为丰富,微博用户通过参与感兴趣的趋势话题能够快速获取自己感兴趣的信息,包括兴趣相投的用户群组,感兴趣事件的演化规律以及最合心意的微博帖子内容等。在微博平台数据爆炸式增加、用户信息获取需求愈发强烈的时代背景下,充分利用包括趋势话题在内的微博平台信息元素,研究有效的社区发现及演变分析方法,对于更好地分析用户兴趣、缓解信息过载问题,进而为用户提供高质量的信息服务具有重要意义。
微博平台具有实时便捷的特性,用户可以在该平台上发表与自己兴趣爱好相关的帖子、追随自己感兴趣的人物以获得该用户发表或转发的自己感兴趣的内容信息,用户的发帖行为与好友关系从不同方面反映了用户的兴趣爱好,通过有机结合这两方面信息,挖掘其中的潜在关联,对用户与帖子内容进行聚类发现用户社区,有利于用户快速定位自己喜欢的社区类型,方便其浏览自身感兴趣的内容信息;同一社区内用户讨论以及关注的内容会发生变化,且不同时间点间围绕讨论的相关话题,用户社区结构之间往往存在一定的联系,诸如衍生、消失、分裂与归并等。在用户社区挖掘工作的基础上,研究基于话题展开的社区演化关系,有助于理解特定话题的产生背景,可以更全面地对社区用户行为进行分析和建模,从而为微博信息组织与用户信息服务提供更为全面的分析方法。
社区会随着时间的推移发生演变,具体表现为用户的发帖行为受到之前时段好友消息传播行为的影响,进而引发用户社区结构随时间的演变发展。在微博平台信息快速传播的背景下,考虑包括时间变化特性以及用户发帖动态行为因素在内的用户社区演变模式,有利于用户把握感兴趣事件的发展趋势。对微博社区的演变分析能帮助用户挖掘各类感兴趣事件的演变模式,社区里的微博趋势话题则能加深用户对各种事件演变模式的理解。针对微博趋势话题展开分类工作,将会为各类事件的演变模式提供更高层次的语义信息描述,从而帮助用户更好地理解社区演变规律,把握事件发展动态。由于用户发布的微博帖子长度短,语义性不强,通过微博趋势话题的内容集合功能为帖子增加语义信息,对结果进行合理归类,会是一种可靠高效的信息组织方法,并将为用户提供友好便捷的面向微博平台的信息服务。
本课题重点研究面向微博的社区发现及演变分析关键技术。课题旨在利用信息检索、数据挖掘与机器学习等技术,结合微博的自身特点,通过对微博社区发现及演变分析等关键技术的研究,对微博上的丰富网络信息进行分析与有效整理,实现为用户提供可靠信息服务的目的。具体而言,本文以微博平台为应用背景,拟从用户社区发现、用户社区演变及微博趋势话题分类这三个不同的用户信息服务角度展开研究,主要内容包括如下几个方面:
1)提出了一种基于概率矩阵分解的社区发现模型,用于发现微博平台上的用户社区,以帮助用户快速定位自己感兴趣的社区人群与帖子信息,从而为他们提供可靠的信息服务。该模型通过共享用户特征空间有效地关联了用户链接关系与用户发帖内容。共享用户特征空间保证了上述资源的同步分解,能有效地减少发现的社区结构误差,使社区发现的结果意义更为丰富,解释性更强。基于该社区结构,本文拓展了社区发现的应用,利用微博社区中意见领袖的观点引领作用,提出了一种基于社区相似度排序的社区推荐模型,向目标用户社区推荐了相关性强且较有价值的用户社区。
2)提出了一个社区演化模型,用于分析不同时段间用户社区的主题演化关系,帮助用户快速把握感兴趣主题结构的演变规律,并揭示用户群体兴趣随时间演进的漂移变化。该方法包括信息传播特征识别、社区演化结构生成及主题演变模式挖掘三个主要步骤。在新浪微博数据集上的实验分析表明,该方法挖掘出的主题演变模式能帮助用户及时更新自己的关注热点,跟踪事件的发展变化规律,为微博用户的兴趣信息组织与展现提供更为全面的分析策略。
3)研究面向微博趋势话题的信息分类问题,从特征及模型两个方面入手,为微博趋势话题添加语义类标签,方便用户快速获取感兴趣的微博帖子内容。首先,针对微博帖子长度过短,语义信息不足的弱点,在特征提取过程中,引入了百度百科等外在知识库,通过知识库的有效关联,提升了微博信息的特征质量,较好地扩展了文本的语义信息;其次,在分类过程中,实现了一种基于贝叶斯推断图模型的文本分类算法框架,该模型能发现特征间的潜在关联,并且模型训练时间短,鲁棒性好,分类效果优于传统的分类模型。通过上述方法得到的微博帖子信息分类结果,会为各类事件的演变模式提供更高层次的语义信息描述,从而帮助用户更好地理解社区演变规律,把握事件发展动态。