论文部分内容阅读
网络是人们获取信息的重要手段,手机、电脑等移动设备已经成为人们生活中不可分割的一部分,网络文本开始成为人们获取信息、传播信息的主要途径之一,这使得文本数据呈爆炸式增长。如何挖掘出文本数据的规律和隐藏的主题结构,成为机器学习领域的热门问题。主题模型在文本领域有着极为广泛的应用,通过建模可以有效的挖掘出数据中潜在的主题结构。但是传统的主题模型在面对极短的文本(如社交媒体帖子)时,由于文本数据少、上下文信息缺失,会面临严重的稀疏性问题,在短文本上的建模效果通常不佳。越来越多的研究者开始思考如何来弥补数据稀疏的问题。然而,大部分的模型虽然通过各种办法来对文本内容进行扩充,但往往认为文中每个单词之间都是独立的关系,忽略了单词之间的语义关联。在实际的场景中,人们阅读时除了文本中的内容外,头脑中已有的知识对于人类理解文本含义也十分重要,单词的词性、相关的单词等语义知识都可以帮助人们进行理解。因此,通过单词间语义关系,可以发现哪些单词有更高的概率属于同一个主题。为它们增加词共现信息从而扩充短文本表示,这更符合人类推理的模式,也能获得更高质量的主题表示。知识图谱是现阶段AI领域研究的热门,在长文本主题建模领域的很多应用已经获得了不错的效果,但是还没有在短文本领域的应用。其中Word Net知识库包含着丰富的单词间语义关系,人们可以从中获取到高质量的同义关系以及从属关系。针对主题模型中词共现信息匮乏的问题,本文利用Word Net提供的单词间语义关联作为额外信息来辅助模型改进采样过程。当为一个单词分配主题时和它语义相近的单词也会共享这个主题,将语义信息与主题模型相结合增加文档级词共现。本文具体工作如下:1.提出了基于知识图谱语义扩展的短文本主题建模方法WRDMM(Word Net Relation Dirichlet Multinomial Mixture)。首先WRDMM从单词邻域结构关联度和单词自身相似度两个角度挖掘语料库中单词的语义特征,分别使用邻域相似度(Neighbor Similar)和Lch相似度(Leacock Chodorow Similar)两种方法计算单词之间的语义关联度,找到更有可能属于同一主题的单词集合,并作为额外的语义特征与狄利克雷混合多项式模型相结合。在模型训练过程中,根据获得的语义权重矩阵和单词与主题间联系的紧密程度,调整相似单词出现在某个主题下的概率,为当前单词和对应的语义相近词同时更新共现频次,将语义合并到主题推理过程中。2.本文在四个NLP领域知名的大型短文本语料集上对提出的模型进行测试,将根据两种语义相似度分别得到的WRDMMNS模型、WRDMMLCH模型与另三个有代表性的基线模型进行对比。经实验验证,本文提出的模型在分类和聚类效果上都有着超过同类模型的优秀表现,能够从短文本中获得高质量的主题信息,同时也证明了知识图谱与短文本主题模型结合的可行性。其中,使用邻域结构扩展的模型效果更好,使用Lch相似度扩展的模型更适合于主题更集中的数据集。