论文部分内容阅读
随着互联网的发展,社交网络也逐渐成为人们交流和获取信息的重要渠道。其中,国外最具有代表性的社交网络是Facebook和Twitter,而国内最具代表性的则是新浪微博和腾讯微博等。由于这些数据大多数是以文本形式来存在的,且通常都会有字数限制,因此有关短文本的研究势在必行,而如何通过相关文本挖掘技术有效及时地获取其中的有用信息显得尤为重要。文本挖掘通常包括文本分类、文本聚类、文档摘要等。近年来,随着文本分类技术的广泛使用,它已成为一个热门的研究领域。本文首先对短文本的主要特点以及研究领域进行了概述,并对有关的短文本的研究现状和其中涉及到的关键技术进行了简明扼要的介绍。接着,针对短文本具有的数据量大、数据稀疏的特点,我们引入了LDA(Latent Dirichlet Allocation)主题模型和信息增益(Information gain, IG)特征选择算法来提高短文本分类的效率。传统的文本表示模型是向量空间模型(Vector Space Model,VSM),它通常是以词或短语为特征的,文档集被表示成文档一词汇矩阵。但是对于短文本来讲,同一个词出现在不同短文本的概率会远远小于长文本,这种数据的稀疏性,使得传统的长文本表示模型以及机器学习的方法无法直接应用到短文本上;其次,由于短文本的数据多,计算量大,因此需要通过特征降维来提高它的效率。LDA模型是一个三级分层贝叶斯无监督学习模型,它能够直接获取隐藏在文本中的语义信息,而不需要通过搜索引擎等外部文本来扩展短文本。从信息增益特征选择公式来看,它不仅前半部分考虑了特征出现的情况,同时后半部分也考虑了特征不出现的情况,因而在去除“无用词”时效果显著。针对以上问题和基于LDA模型和信息增益的特点,本文的第3部分采用信息增益来进行特征降维,然后再用LDA进行主题建模,最后以主题作为特征,建立文本类模型。经过对比实验的micro_F1值显示,短文本的分类性能有了显著提升。传统的信息增益算法在类和特征项分布不均时,分类性能明显下降。所以本文的第4部分主要针对改进后的信息增益算法结合LDA模型来进行文本分类。具体执行步骤为:首先是对类内类内特征进行降维处理,主要利用的是特征分布均匀度和特征关联树模型。然后,使用类间加权离散度对信息增益公式进行改进,进一步提高类间特征IG的精确度,获得更优的特征子集。最后,再结合LDA主题建模来进行文本分类。通过对比实验表明,短文本的分类性能有了更进一步的提升。