论文部分内容阅读
当今,基于互联网的社交媒体服务已经成为人们使用最为广泛的互联网信息技术服务之一。以推特为例,作为全世界主流社交媒体服务平台之一,其每天都会产生大量用户发布的原创内容、转发与评论。这些社交媒体数据揭示了公众的关注点和兴趣,对于研究用户的群体兴趣、情感倾向,进而实现精准的个性化推荐都具有重要意义。近年来,很多学者致力于研究基于社交媒体数据的主题识别和挖掘模型,然而这些模型通常只能识别和挖掘出单一层次的主题,无法构建出具有层次结构的主题树。另一方面,联机分析处理(Online Analytical Processing,简称OLAP)技术在分析多维结构化数据方面非常有效,它使相关分析人员能够一致、快速、交互地从多维度观察和分析数据。将OLAP技术应用于类似于推文的文本数据(即文本OLAP)的关键是从非结构化文本内容中挖掘和构造维层次。然而,不同于传统文本OLAP技术处理的纯文本内容,社交媒体数据中不仅包含了大量的社交短文本,还包含了丰富的社交关系信息。如何挖掘和利用社交媒体数据中的社交关系信息,以实现有效的维层次结构构建,是将传统文本OLAP技术应用于社交媒体数据分析时所面临的挑战之一。本文以推特数据为例,提出了一种社交短文本数据预处理方法和一种支持OLAP分析的社交数据层次化主题建模方法。在社交短文本数据预处理过程中,首先给出了一种基于短文本聚类分析的单词加权算法,对推文中的每个单词进行加权分析;然后给出了一种基于LDA(Latent Dirichlet Allocation)和加权词图模型的单词评分算法,对推文中的单词进行评分。最后,本文定义了推文热度属性,结合推文的热度属性和每个单词的评分,计算得到每条推文的评分,得到具有较高分析价值的推文,为之后的社交数据层次化主题建模方法奠定了基础。在对社交数据进行层次化主题建模的过程中,本文提出了一种thLDA(Twitter Hierarchical Latent Dirichlet Allocation)算法,该算法能够从推文内容中自动挖掘并且构建推文主题维层次,并将该主题维层次进一步应用于文本OLAP技术中。thLDA在形式化建模过程中融合了推特数据中丰富的社交关系信息。我们在大量真实推特数据上进行了广泛的实验并且评估了thLDA实的有效性。实验结果表明,thLDA在挖掘和构造推文主题维层次方面优于其他当前的主题模型。