论文部分内容阅读
以Web2.0为代表的社会化媒体服务迅猛发展,改变了传统的信息传播方式,使得互联网用户从以往被动地接受信息走向主动对信息进行创造,产生了无穷无尽的文本数据。与此同时,社会化媒体服务还将现实社会关系映射到了互联网中。面对社会化媒体中海量、有价值的数据,科学家们掀起了研究的狂潮。然而,与以往的数据相比,社会化媒体中的文本,链接数据拥有一些新的特性(多噪声、高稀疏、短文本、动态性、缺失值),这导致了传统的聚类方法不能直接的应用于社会化媒体中的数据。近几年科学家们提出一些针对社会化媒体数据新特性算法,如图聚类模型,主题模型等。但这些聚类研究存在如缺少对数据整体分布的学习、缺乏数据之间关系的分析及缺乏系统性等缺点,并且研究方法寥寥可数。本文在现有研究工作的基础上,针对社会化媒体数据新特性,结合图聚类及主题模型最新研究成果,提出一系列新颖的、针对社会化媒体内容的聚类方法。主要研究工作和创新包括:(1)针对多噪声网页内容聚类问题,提出基于网页DOM树结构的网页分块算法(TPS)和基于图分割的网页分块算法(GPPS)。这两个算法探索社会化媒体网页中语义模块与网页DOM树子树结构的对应关系,将一个网页视为多个主题信息块的集合,并通过解析网页DOM树子树结构中包含的语义信息,将一个网页分割成为多个独立主题的语义模块。TPS算法通过定义DOM树中的语义子树将一个网页分割成为不同语义模块。GPPS算法将DOM树转化为一个有向图,并通过图聚类算法来发现网页的语义子模块。在社会化媒体网站数据上的实验结果表明,与仅搜索网页DOM树节点属性和视觉信息的传统算法相比,TPS和GPPS两个算法的分块效果精度更高,鲁棒性更强。这两种算法可以用来去除网页中的噪声文本,是其他工作的前置步骤。(2)针对文本流数据中的突发词聚类问题,提出基于主题的突发事件侦测算法(TBE)。该算法首先使用高斯分布检测时间域上的突发词。接着,该算法同时考虑突发词之间的共现关系和文本集中的潜在主题信息对突发词进行聚类,得到了时间间隔中的突发事件。最后,TBE算法通过概率可能性估计出事件主题。该主题用来在时间域内追踪突发事件的发展。本文中TBE算法还设计事件可视化技术来展示算法发现的事件。在社会化媒体中博客数据和Reuter新闻数据上的实验结果表明,TBE算法事件发现的效果优于当前最好事件发现算法HBE算法。(3)面对传统的TDT问题,将传统的在线主题模型扩展为主题事件侦测和追踪算法(TEDT),该算法克服在线主题模型在事件侦测应用中的两个缺陷(噪声词和多重事件)。TEDT算法通过计算事件出现的概率来度量词之间的距离,使用了流聚类算法得到了一个主题对应的最高概率事件。TEDT算法还能够通过侦测到事件的主题,在时间域内追踪事件的变化。最后,TEDT算法提出事件可视化方案来展示算法发现的主题事件。在博客数据和Reuter新闻数据上的实验结果表明TEDT算法事件发现的效果优于传统主题模型算法。(4)面对文本和链接数据的协同聚类问题,提出作者、主题、社区模型(ATCModel)。ATC模型使用概率生成模型对社会化媒体中的用户数据(文档和链接)的出现进行建模。该模型通过对用户发表文章和用户之间链接关系的协同聚类,使用用户主题的知识弥补用户链接数据中的缺失信息,得到对用户兴趣和社区分布的更精确更鲁棒的分析。在模型的推导阶段,本文使用变分法来估计ATC模型的参数。人工数据、博客数据、DBLP数据和DIGG数据上的结果表明ATC模型效果优于传统用户主题模型。本研究提出的五个算法中,TPS算法和GPPS算法被用作过滤网页中主题无关噪声,是其他工作的前置步骤。TBE算法考同时考虑突发词之间的共现关系和文本集的潜在主题信息对突发词进行聚类。TEDT算法过滤在线主题模型中的噪声词和多重事件,得到了一个主题的最相关事件。ATC模型使用用户主题的相关弥补用户链接数据的中的缺失信息,得到用户兴趣和用户社区的分布。总体而言,本文针对社会化媒体中信息新特性,解决具有多噪声、高稀疏、短文本、动态性、缺失值特点的数据聚类问题。提出了TPS,GPPS,TBE,TEDT及ATC等5个聚类算法/模型。本文研究将推动社会化媒体中数据聚类的进一步发展,同时这些算法也给金融分析业,电商平台的推荐系统带来更多更好的选择。