论文部分内容阅读
随着计算机科学技术和物联网不断的发展壮大,越来越多的数据以短文本的形式出现在互联网上例如新闻标题、贴吧言论、微博消息等。对短文本数据运用分类、聚类的技术,从中挖掘出有价值的信息为人们的生活提高有用的便利,以满足不同方面的需要,因此对短文本数据进行挖掘越来越成为一个迫在眉睫的任务和课题。本文首先对短文本的基本概念进行介绍,并说明目前短文本面临两个主要的问题,第一个是由于短文本特征词稀疏性,而无法利用常用文本的算法处理,或者无法取得和长文本相同的效果;第二个是短文本缺乏上下文依赖性无法提供有效背景信息;接着分别对现有的几种主要的计算长文本相似度的方法进行了分析,主要包括基于VSM的余弦相似度算法和基于语义词典的语义相似度算法;最后介绍目前主要短文本相似度计算法主要包括基于大规模文本集进行统计的方法和基于描述特征的方法;本文不仅计算长短文本相似度的方法而且其各自的特点,并分析了不足之处。然后本文介绍LDA主题模型的原理和重要参数。LDA主题模型可以更深入的挖掘短文本的内在语义,使短文本的相似度计算不局限于短文本的语言结构上,而从潜在短文本内在的语义的方向进行数据建模和计算;LDA的主要原理是将每篇文档当做由很多个主题组成的,先把每个文本生成不同的主题比例分布函数,然后为每个特征词进行训练生成对应的主要主题。接着介绍多粒度主题模型对单粒度主题模型所拥有的好处,能够部分缓解短文本LDA主题模型生成过程中产生的数据稀疏性的问题,多粒度主题模型通过不同的主题数,充分挖掘短文本数据集的不同维度的有用信息,以提高短文本语义相似度计算的关联程度。最后介绍本文提出的两个提高短文相似度计算的改进方法。第一,对究有根据单粒度主题模型来改进短文本相似度计算的方法,本文采用了多粒度主题模型来改进短文本相似度计算方法,利用LDA主题模型在不同主题数下,对短文本的训练集进行数据建模,然后对利用究训练的LDA模型对短文本测试集进行主题分析,分析两个的短文本片段所用主题成分,如果不同的短文本片段拥有类似的主题的成分,说明这两个多文本具有语义上的相关联,通过这种关联的程度的高低来提高两个短文本片段的相似度值;第二,本文对原始短文本片段进行特征词的扩展,再结合上面的基于多粒度的主题模型的方法来提高相似度计算的准确率,和方法一类似先对短文本训练集进行数据建模并分析短文本测试集中不同短文本片段的主题成分,把每个短文本相似度片段中所占的主题成分最多的几个主题作为主题标记添加到每个对应的短文本片段的里面,来提高短文本的特征词的数量,如果两个短文本片段拥有类似的主题成分,这两个短文本片段有相同的主题标记,进而提高两个短文本相似度的计算。实验结果表明本文提出的方法能够有效的提高短文本分类器的性能,相对于BuyAns数据集在KNN和KNN_MTBS上分类性能,基于结合短文本特征词扩展和基于多粒度的方法平均准确率提高了4.1%左右;本文所提出的方法在问题分类数据集Phan上的分类性能比KNN,KNN_MTBS也取得更好的分类效果,相对于Phan数据集在KNN和KNN MTBS上分类性能,基于结合短文本特征词扩展和基于多粒度的方法平均准确率提高了5.1%左右。