论文部分内容阅读
近年来,随着社交网络和移动互联网的迅速发展和普及,以Twitter、新浪微博为代表的微型博客(MicroBlog,简称微博)被广泛地普及和使用。在微博的网络空间中,每天都会产生海量的数据信息,用户可以随时随地发布信息、分享资源和讨论互动。微博开创了网络媒介的新时代,它可以在极短的时间内凝聚网民的意见,推动热点话题事件的发展,成为了“杀伤力最强的舆论载体”。微博用户往往更加关注当前的热点话题以及热点事件的实时进展情况。因此,如何利用这些微博数据及时发现热点话题事件、实时追踪热点话题事件成为了主流的研究问题。本文围绕微博热点话题发现、热点话题追踪等技术,对全自动中文热推机器人培养方法进行了研究和系统实现。具体研究内容如下:(1)利用微博开放平台的API技术,从微博网络空间中实时采集原始微博文本素材,并对原始素材进行清洗和去重,从而有效地为系统提供充足的“原材料”。(2)研究如何实时准确地在海量微博数据中发现有价值的热点话题信息。本文提出了一种基于相容关系的微博话题发现方法,该方法突破常规的聚类和分类算法,利用基于相容关系的数学模型对微博数据进行分析计算。(3)根据给定的话题信息,在后续未知数据流中跟踪已知话题的所有相关报道信息,从而得到话题的进展和演变情况。本文提出了一种融合用户关系的自适应微博话题跟踪方法,该方可以密切跟踪话题热度的变化以及焦点的演变,并有效地提高了微博中话题跟踪的稳定性。(4)将系统追踪到的热点素材自动发布,通过满足微博用户对热点话题进行持续跟踪的需求,来逐步提高系统账号的影响力,增加粉丝的粘性。从而将微博账号培养为热推机器人。本文借助微博开放平台的API接口,实现了针对微博平台的全自动中文热推机器人培养系统。实验表明,本文中的微博素材采集模块、热点话题发现模块、热点话题追踪模块以及账号自动发帖模块均能够有效工作。一方面,该系统实现了在错综复杂的数据流中检索热点话题以及热点话题相关的报道,从而为引导和治理微博中的网络舆情提供了先决条件;另一方面,该系统将追踪到的热点话题相关报道自动转发出去,满足用户对话题进行持续跟踪的需求,让用户可以快速地了解到热点事件的整体走向,从而实现用户兴趣推荐等功能。