基于机器学习的文本聚类模型显著性研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:corydalis
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,对文本信息进行聚类分析是当今大数据时代的必要任务。聚类是机器学习中最具代表性的方法之一,而特征提取对聚类结果的准确性具有很重要的影响。目前,传统的聚类算法主要用来解决一些低维数据的聚类问题,对于文本信息的处理仍然存在着一定的局限性,因此如何通过特征工程来提高聚类算法准确度非常值得探讨。从应用工程层面来讲,本文针对电影评论文本数据集的稀疏性,提出了一种改进的特征提取模型,并结合两种传统的聚类算法进行实验对比。然后在改进的特征提取模型的基础上,又提出一种追逐聚类算法模型,有效的提高了聚类结果的准确性。由于文本之间也存在着差异性,不同的特征提取模型适用于不同的文本数据库,因此本文选取两类不同的文本数据集进行聚类,并将改进的聚类算法应用到电影评论聚类中。本文提出了一种基于word2vec方法中的skip-gram模型和TF-IDF模型的改进的新型S-T特征提取模型,并将S-T特征提取模型与传统聚类算法结合进行聚类。在S-T特征提取模型中,通过TF-IDF方法来学习特征词的重要性,通过word2vec方法的无监督的学习方式,利用skip-gram模型中隐藏层的神经元去学习每个特征词的文本信息。采用负采样方法来提高性能,进而改变神经网络中的权重关系,通过最大似然估计法,将问题转化为随机梯度上升法求解,从而解决原始文本的特征稀疏的问题。通过对比实验,显著性评价指标F1值表明,针对古诗数据集中的低维特征字进行文本聚类时,谱聚类的聚类效果要优于k-means聚类效果。针对高维多特征的电影评论文本数据集,k-means聚类的聚类效果要优于谱聚类效果,并且改进后效果最好的S-T模型算法的准确度平均值由原本的43.6%提升为63.28%。由于贝叶斯模型具有从文本数据集中自动学习聚类的类别个数的优点,因此本文提出一种基于贝叶斯方法的追逐聚类模型。考虑到文本聚类中的特征项的特性,将在追逐聚类模型中,改变贝叶斯公式中的条件概率。通过添加一个小的约束条件,即确定追逐中心点,使数据进行自我学习和聚类。通过对比实验,降维后聚类的效果图和显著性评价指标1F值表明,改进后的追逐聚类算法的聚类效果要优于S-T模型与传统聚类结合的模型。
其他文献
含柔性构件的机器由于其质量轻、可变形等突出特点,能在复杂条件下完成传统机器不能胜任的任务。薄壁梁作为一种常见的柔性构件,被广泛应用于不同领域的机械结构中。能够针对
目的:采用对母亲发生绒毛膜羊膜炎,且诊断为宫内感染性肺炎的胎龄小于34周早产儿的相关研究,探究绒毛膜羊膜炎不同分期、分级与小于34周早产儿宫内感染性肺炎的关系,从而指导对母亲存在宫内感染的,且发生宫内感染性肺炎的早产儿进行早期干预,并对后期诊治进行指导,进而改善患儿预后。方法:选取2015.10-2017.10在我院产科分娩且母亲行胎盘病理检查,并转入我院新生儿重症监护室的小于34周早产儿作为研究
集装箱、大型船舶等设备的生产中需要巨量的焊接构件拼接,其焊接质量直接影响着整个设备的质量和使用安全。现有的焊接方式多采用手工焊接和机器人示教焊接。针对手工焊接方
云存储作为未来信息存储的一种理想方式,近几年已成为各行业的研究热点。其资源灵活、成本低廉、存储高效等优势给用户带来了极大的便利。但由于用户使用云存储时无法对数据
互联网时代下的发展日新月异,每个人的生存遭受严峻考验。当前社会环境不稳定,各行各业都面临着变化,组织中终身雇佣制被打破,每个人都面临失业的威胁,同时无边界职业生涯的到来以及朋辈内卷使竞争更为激烈,这要求我们拥有更强的应变能力。在个人生涯不安定、组织环境不稳定、社会环境不确定的情况下,寻求应对变化的方法迫在眉睫。生涯适应力是职业生涯的核心,是获得职业成功的关键因素。在不断变化的环境中,生涯适应力可以
六旋翼无人机的研究是基于四旋翼无人机研究基础上近些年展开的。进入21世纪以来,随着MEMS(微机电系统)技术的发展,极大地推动微型旋翼无人机的发展和应用。六旋翼无人机与四旋翼相比,能够实现更精准的控制和更好的稳定性及更高的负载能力,有着广泛的应用前景。本文首先介绍六旋翼无人机的发展现状和研究热点,提出基于欧比特处理器的飞控系统实现方案。硬件主控平台基于珠海欧比特公司的S698-T微处理器,姿态检测
电力工业控制国民经济命脉,它是最重要的基础能源产业和经济发展战略的重点。其中,火力燃煤发电是我国最主要的发电方式之一。在火电厂中,旋转机械设备数量众多且至关重要,常
随着我国信息技术的快速发展,大量刑侦现勘图像被采集用于现代化案件侦破中,这些图像不仅包含许多有价值的线索,还可以提供有力的证据。目前,面向公安侦查应用的刑侦现勘图像检索多使用基于文本或传统浅层特征的图像检索方法,检索的准确率和效率都难以满足现代化刑侦办案的需求。本文对目前图像检索领域的研究成果和技术进行总结分析后,采用基于深度特征的图像检索方法,以提升刑侦现勘图像检索的准确率和效率。主要研究内容如
现阶段,社会的经济水平显著提升,人们的健康意识也在不断加强中。肌肉系统,是人体器官的一个重要组成部分,为每一项生命运动都提供了动力,但是当肌肉在持续不间断的工作后,它的工作能力就会明显下降,肌肉就产生了疲劳,既影响人体的正常活动,也易导致肌肉损伤。因此,肌肉疲劳的缓解与治疗是一个值得重视的问题,肌肉疲劳状态的识别和检测是本文研究的关键,对运动学和医学研究有着重要的意义。肌肉疲劳是一个动态的连续的过
生物验证作为一种重要的身份验证技术,越来越广泛的应用在隐私和安全领域。利用人脸的生物特征进行身份识别,在学术界和工业界得到了广泛的关注。然而,由于传统的人脸识别技