论文部分内容阅读
随着移动互联网的高速发展,搜索引擎、博客、微信等应用使得人们的生活和工作变得更加简单、高效,这些应用平台每天都会产生海量的短文本数据,因此如何从这些数据中挖掘出有价值的信息具有很高的研究意义。短文本聚类可以有效地对海量数据进行处理,旨在通过聚类分析挖掘出短文本间的内在联系。此外,短文本聚类还为信息检索、用户画像、个性化推荐等研究领域提供了技术基础。由于短文本具有词少低频、特征稀疏和表述随意等特点,传统的文本聚类算法在短文本上的表现效果较差。本文通过研究发现Word Embedding具有特征稠密、简单易用的特点,将Word Embedding这一技术应用到短文本聚类中,将对聚类效果带来很大的提升。本文的研究工作如下:基于Word Embedding和EWMA(Exponentially Weighted Moving Average)的短文本聚类。采用Word Embedding进行文本表示可以很好的获取文本的语义特征,但是短文本中包含的词语数量极少,每个词语对文本表示的影响都至关重要,直接以句子中所有词语的平均向量来表示文本,常常受那些“异常词”的影响,效果并不十分理想。针对这一问题,本文提出将EWMA应用到文本表示中,通过实验发现聚类效果得到了有效提升。基于Word Embedding和改进的WMD(Word Mover’s Distancence)距离的短文本聚类。通过词向量的演算结果来对文本进行表示,难免会损失一部分语义信息。本文查阅相关文献发现采用WMD距离公式来计算文本之间的相似性可以提高相似性度量效果,但是该公式计算起来较为繁琐低效。针对这一问题,本文结合短文本的特殊性对WMD距离公式进行简化,并提出了一种基于密度的短文本聚类算法。该算法通过引入“倒排索引”这一技术,降低了聚类算法的时间复杂度,提升了聚类的效率。基于聚类的短文本特征挖掘的应用。为了验证前面提出的算法在实际应用中的效果,本文以微博推荐为应用场景,提出了一个面向二分类的实际问题。本文对微博内容进行聚类后,将文本到每个类簇的距离作为文本特征加入到二分类模型中。通过实验表明,本文提出的聚类方法所获取的文本特征要明显优于已有的聚类算法获取的文本特征,体现了本文的价值。