基于Word Embedding的短文本聚类算法研究及应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:gandianci20
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的高速发展,搜索引擎、博客、微信等应用使得人们的生活和工作变得更加简单、高效,这些应用平台每天都会产生海量的短文本数据,因此如何从这些数据中挖掘出有价值的信息具有很高的研究意义。短文本聚类可以有效地对海量数据进行处理,旨在通过聚类分析挖掘出短文本间的内在联系。此外,短文本聚类还为信息检索、用户画像、个性化推荐等研究领域提供了技术基础。由于短文本具有词少低频、特征稀疏和表述随意等特点,传统的文本聚类算法在短文本上的表现效果较差。本文通过研究发现Word Embedding具有特征稠密、简单易用的特点,将Word Embedding这一技术应用到短文本聚类中,将对聚类效果带来很大的提升。本文的研究工作如下:基于Word Embedding和EWMA(Exponentially Weighted Moving Average)的短文本聚类。采用Word Embedding进行文本表示可以很好的获取文本的语义特征,但是短文本中包含的词语数量极少,每个词语对文本表示的影响都至关重要,直接以句子中所有词语的平均向量来表示文本,常常受那些“异常词”的影响,效果并不十分理想。针对这一问题,本文提出将EWMA应用到文本表示中,通过实验发现聚类效果得到了有效提升。基于Word Embedding和改进的WMD(Word Mover’s Distancence)距离的短文本聚类。通过词向量的演算结果来对文本进行表示,难免会损失一部分语义信息。本文查阅相关文献发现采用WMD距离公式来计算文本之间的相似性可以提高相似性度量效果,但是该公式计算起来较为繁琐低效。针对这一问题,本文结合短文本的特殊性对WMD距离公式进行简化,并提出了一种基于密度的短文本聚类算法。该算法通过引入“倒排索引”这一技术,降低了聚类算法的时间复杂度,提升了聚类的效率。基于聚类的短文本特征挖掘的应用。为了验证前面提出的算法在实际应用中的效果,本文以微博推荐为应用场景,提出了一个面向二分类的实际问题。本文对微博内容进行聚类后,将文本到每个类簇的距离作为文本特征加入到二分类模型中。通过实验表明,本文提出的聚类方法所获取的文本特征要明显优于已有的聚类算法获取的文本特征,体现了本文的价值。
其他文献
随着互联网技术的发展,旅游模式日新月异,传统的旅游企业受到冲击。多数旅游企业存在着"不注重互联网下客户信息的收集与整理,传播媒介方式过于分散,客户开发模式过于单一"的
介绍当前冰蓄冷空调技术现状与发展动态,分析推广应用该项技术的重要性和必要性,探讨其未来发展方向。
近年来,随着我国公共财政框架体系的建立和财政支出管理体制的改革,中央有关部门及各地区财政部门开展了政府采购试点工作,取得了显著的成效。2002年政府采购规模预计将达到1
介绍室内空气品质的国内外有关研究成果 ,包括IAQ问题引起关注的缘由 ,IAQ的影响因素、评价方法及改善IAQ的相关措施
做好工资发放工作不仅关系到每个非事业编制人员的切身利益,也关系到非事编人员队伍的稳定和发展。我们应力求做到准确、按时的发放工资,找出在非事编工资发放工作中存在的问
中小企业作为社会主义市场经济的一个重要组成部分,承载着促进经济发展、科技创新、扩大就业等社会职能。但由于中小企业规模小、实力弱、抗风险能力差等因素,制约其长远发展
本研究针对15N2同位素示踪法测定生物固氮速率中引入示踪剂操作方法的不足,通过实验室实验,对同位素(15N2)示踪法测定固氮速率中引入15N2的操作进行改进,找到了一种更理想的1
袋式除尘器是目前最高效的锅炉烟气净化治理设备之一,清灰是袋式除尘器长期稳定运行的关键,清灰影响因素众多,复杂多变。本文总结归纳国内外关于过滤介质清灰过程的研究状况,