论文部分内容阅读
随着互联网和网络技术的快速发展,很多网络通信交流平台被广泛使用,如手机短信、微博、电子邮件、论坛、聊天软件、新闻评论等,而他们通常会产生大批量的短文本信息资源。这些短文本涉及着人们生活的各个领域,也逐渐成为人们广泛使用并且公认的交流方式,并且它也改变着人们的生活和沟通习惯。从这些数量庞大的短文本中挖掘其中所蕴含的潜在资源可以方便对它们进行管理、同时也可以用于信息的发现和分析。但是面对如此海量的短文本,人们很难快速的通过人工的办法来获取其中所蕴含的信息资源,所以利用计算机技术来对短文本进行挖掘和分析具有重要的意义。文本聚类是自然语言处理中最基础的技术,采用聚类技术对这些短文本进行分析和组织,能够挖掘文本内部文字之间的联系,进而有助于对这些信息的整体认识和管理。但是对于短文本来说,短文本本身和长文本不一样,它具有独特的特征,如字数少,表达简洁、缺乏丰富的上下文信息,包含的信息量有限,这使得短文本的特征稀疏,很难准确的抽取有效的文档特征,加之传统的文本聚类方法直接在短文本上使用的效果不佳,因此,这对短文本的聚类研究带来了更多的挑战,同时也导致短文本聚类技术的发展相对缓慢。目前,针对短文本的文本聚类的困难基本上有:如何解决短文本的特征稀疏问题,如何改善短文本聚类的质量、以及如何描述聚簇结果。本文综合的考虑了以上几点,提出了基于BTM(Biterm Topic Model)的短文本聚类方法。本文主要工作:(1)详细阐述了短文本聚类的研究意义,研究难点和常用的解决方法,简要介绍了短文本聚类理论和关键技术,如预处理中的句子分词和去停用词、几种重要的文本模型、聚类方法、聚类中涉及的相似度计算、聚类评价指标以及聚簇结果的描述等。(2)详细介绍了BTM (biterm topic model),分析和对比了BTM和LDA以及一元混合模型的异同,介绍了BTM语义空间及Gibbs抽样的参数推理过程,实验体现了基于BTM语义的文档特征和文档表示形式,从而证实了BTM在处理短文本稀疏问题上的有效性。(3)将BTM引入到短文本聚类,利用BTM训练之后得到的文档-主题的概率分布矩阵和主题-词概率分布矩阵与传统的利用TF-IDF进行词权重计算的向量空间模型相结合,即将主题特征与词特征结合,以此达到改善短文本聚类质量的效果。(4)利用聚类的结果中各个聚簇文档中的主题分布情况,结合BTM训练之后的主题-词特征空间,提出一种聚簇结果描述方法,利用这种方法可以对聚簇进行描述和直观理解。通过在百度知道语料库上进行K-means聚类的实验结果分析对比中得出,本文的方法优于传统的VSM和利用LDA的聚类,并且采用本文提出的方法对聚簇结果的描述也较为准确,通过整个实验,基于BTM的短文本聚类效果的有效性也得到了验证。