基于L2,1/2稀疏约束和余弦相似度的非负矩阵分解聚类算法

来源 :华东交通大学 | 被引量 : 0次 | 上传用户:obzz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本聚类算法在大数据时代,一直是一个热点问题。流行的方法是使用主题模型或谱聚类算法作为基础,使用传统的k-均值方法进行进一步聚类。一些模型使用非负矩阵分解算法分解高维的稀疏文本特征矩阵,然后在降维后的矩阵向量上进行聚类。但这类模型在优化过程中往往受到潜在特征之间的内在关联影响,增加最小化损失函数的难度。一般非负矩阵分解采用构建大量稀疏NMF,尝试用附加的约束和转换找到合适的解决方案,这将导致计算很复杂。本文深入研究传统的非负矩阵分解算法包括稀疏约束NMF和其它正则化NMF算法的模型和思想,在现有的算法基础上,引入余弦相似度的理念,提出了基于L2,1/2稀疏约束和余弦相似度的非负矩阵分解聚类算法INMF。该模型在对文档词频矩阵进行非负矩阵分解时,提出利用余弦相似度方法减少潜在特征之间的相关性,防止特征共适应性,提高NMF独立特征学习能力,在此基础上,INMF采用L2,1/2稀疏约束,达到数据稀疏表示和简化计算的目的,并增强了算法的局部学习能力和鲁棒性。因此潜在特征中的语义信息更为明显,潜在空间的表示更具有判别性。本文在公开的数据集上进行实验分析,结果表明,在具有高稀疏性的数据集上,本文提出的INMF算法在一系列评价指标上都显著优于传统的NMF算法。
其他文献
目的探讨老年Ⅱ型呼吸衰竭患者采用适应性支持通气(ASV)方案与同步间歇指令通气(SIMV)+压力支持通气(PSV)方案治疗对其动脉血气及呼吸力学指标的影响。方法选择2015年1月至20
选取校园内两种不同下垫面(屋面、路面)的雨水径流,同时以天然雨水作对比进行水质污染指标分析。通过两种不同下垫面的水质污染指标分析结果研究校园雨水初期地表径流污染物
旅游商品本身是旅游资源的重要组成部分,以满足旅游者的需求为前提,也是衡量一个地区旅游业发达程度的标杆。与国内其他发展城市相比,喀什市旅游商品市场仍然存在诸多问题,最
以3-氯-4-三氟甲氧基苯胺为原料,经重氮化、甲醛肟化、水解和腈化反应得到纯度≥99.2%(GC)的3-氯-4-三氟甲氧基苯甲腈,总收率为31.5%.中间体及产物结构通过IR及元素分析验证.
文章从现阶段农业科技成果转化方式入手,分析了农业科技成果转化率不高的原因,结合江苏农业科技综合展示基地试点经验,提出由政府牵头,将农业技术成果集中进入农业科技综合展
加氢反应器是炼油行业中加氢装置的关键设备,其操作条件十分苛刻,通常在高温高压的环境下工作,操作中存在很大的机械应力与热应力,因此对其设计制造要求十分严格,其安全性必
一、引言随着全球旅游热的兴起,旅游业竞争愈来愈激烈,旅游竞争的焦点在于抢占旅游客源市场。旅游区稳定地占有一定数量和质量的旅游客源市场,是保证旅游业发展的关键。昆明市旅
期刊
唐传奇是在唐代形成的一种成熟状态的文言小说,是与唐诗并立的文学高峰。道教在唐代也正处于其发展的黄金时代,对社会各方面都产生了巨大的影响,对唐传奇的影响也十分深远。
消费者的需求是设计师在产品设计时应首要关注的问题,是设计活动的核心,能否抓住消费者需求,是产品设计成败的关键因素。然而,随着经济、技术的发展,消费者的需求变得日渐复