PCA-PSO-FCM在短文本聚类中的研究与应用

来源 :南华大学 | 被引量 : 1次 | 上传用户:feifei1988000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当下社交网络高速发展,各类信息数量成指数式的爆发增长,人们生活,社交,娱乐,阅读更加依赖于社交网络。为了满足人们日益增长的快速获取信息的需求,互联网中诞生了诸如微博,豆瓣,知乎,今日头条等媒体。这类媒体通过给用户推送短文本信息,使得用户得以在短时间内,迅速了解时下社会问题,热点新闻,重要事件等与生活息息相关的信息。随着这类短文本信息量不断的积累,这其中蕴含的大量有价值的信息对人们的日常的生活,工作,学习,有着不小的影响。并且对经济,文化,政治等多个方面有着重大的研究意义。对这类短文本数据进行精准且有效的聚类,对舆情监测,广告投放,情感分析,文本分类等领域,有着先导作用和应用的价值。因此,对于海量的短文本信息数据的聚类研究,是存在着实际意义和研究前景的。短文本与长文本相比,文本长度短,词汇个数少。在整体的信息量不降低的前提下,短文本的单个词具有高信息量,高概括性。传统基于词向量特征空间模型,将短文本转换成稀疏的空间词特征矩阵,在处理大量数据时,会面临空间复杂度高,特征矩阵稀疏度高,针对噪声的抵抗弱,鲁棒性低的问题。利用word2vec结合文本卷积神经网络的方法将文本信息压缩,极大程度的保留了文本数据的关键特征,针对于短文本的空间复杂度,降低词向量的稀疏程度上面做了优化。短文本存在多义性以及多类性的性质,传统聚类算法只能将短文本数据硬性划分为一类,从而丢失多类交界文本数据的有效信息,无法完整的反映文本的真实信息,并且聚类结果精度不高,聚类中心偏移。为了解决短文本聚类存在多义性和多类性的问题,本文提出一种在Text-CNN支持下PCA-PSO-FCM短文本聚类算法。利用word2vec模型训练语料库,训练出词向量;使用Text-CNN的一维卷积层,对特征进行学习将词向量从高维映射到低维;然后通过PCA计算各维度主成分贡献率限制文本粒子各维度的移动;最后通过PCA-PSO-FCM算法对短文本进行实验,验证算法的有效性,对比算法的整体性能。结果表明该算法在短文本聚类中比传统聚类算法有明显的改进。
其他文献
与高级视频编码标准AVC(Advanced Video Coding)相比,高效率视频编码标准HEVC(High Efficiency Video Coding)大大提高了编码效率,这得益于HEVC采用了许多新的编码技术。但是
核退役工作中,拆除机器人通过快换装置可以换装破碎锤、液压剪和抓斗等工具,以对核设施进行破碎、剪切和搬运等工作,是目前代替人工进入辐射环境对核设施进行拆除解体的主要
数据挖掘是一门实用的学科,它根据具体问题应用具体方案,在繁杂的数据中找到规律,给问题的研究人员提供决策辅助。图论是一门研究客观世界中事物间联系的学科。两者相结合,就是希望通过图模型找到具体解决方案,挖掘出客观世界中数据的客观规律。当今社会,越来越多的数据可以抽象成网络结构,从而在图论领域的数据挖掘问题也越来越多,其中就不乏在二分图领域的数据挖掘问题,前人也在这一问题上获得了许多研究成果。本文研究的
伴随着信息的高速传播,经济的快速发展,计算机互联网技术在诸多领域都得到了十分普遍的应用,上世纪七十到八十年代,计算科学进入了教育领域,计算机科学运用在教育中,对传统教
多载频相位编码信号具有众多优良特质,如高分辨、低截获、抗干扰等,因此对这种信号进行系统的性能研究分析是很有必要的。本文是以多载频相位编码信号的信号特性分析以及信号
高超声速推进技术由于其重要的战略地位,在世界各国内得到广泛的研究,随着其技术的日趋成熟,对超燃冲压发动机的智能管理体系提出现实的需求,具体表现在对内部关键参数的测量
高速钢已广泛用于工具、模具、轧辊等行业,随着工业发展,碳与合金元素的含量不断增加,组织中碳化物形貌也由网状向球状不断演化。然而传统工艺制备高速钢存在组织粗大,碳化物
自动摘要作为一种文本解析的重要工具,它可以从海量数据中提取出文本的主题信息,实现从冗余文本到简洁文本的快速转换。得益于深度学习技术在自然语言处理(Natural Language
图像作为信息的主要来源之一,影响着人类社会的生产和生活.在图像拍摄过程中,通常成像设备会受外在环境影响,如物理器件和拍摄者与被拍摄物体之间的相对运动等,导致所得图像
支持向量机对分类问题的有效解决能力,吸引力了大量科研工作者的关注.对支持向量分类器模型的应用改进,成为了新的研究方向和关注领域.由于分类问题样本数据集存在线性不可分