改进的密度峰值算法应用于文本聚类问题研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:qwfyhwl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今大数据的时代中,信息技术也已经渗透到各行各业。随着对信息需求的增多,如何帮助用户将繁多的数据处理成逻辑化的形式就成了亟待解决的问题。目前最核心信息载体就是中文文本,文本聚类也成为快速组织和分析用户感兴趣的文本信息的重要途径之一。通过预处理和聚类分析操作,对原本无结构的文本数据形式化描述,最终按照相似度的大小聚成不同类簇,对信息检索、新闻话题发现等具有重要的理论意义。在深入研究的基础上,本文选取了具有参数少、原理简单、易于实现等优点的密度峰值算法用于文本聚类。针对密度峰值算法聚类中心点选择问题,对粒子群算法作出改进,并与之结合,应用在文本聚类中,旨在提高聚类效果。主要做了以下两部分的研究工作:(1)在对标准粒子群算法的各个参数尤其是惯性权重的深入研究上,提出了一种动态调节惯性权重策略,综合考虑粒子适应度值赋予不同的惯性权重,平衡算法在不同迭代时期的全局搜索和局部搜索能力;研究分析了粒子在高维多峰函数寻优时易陷入局部最优的问题,提出了一种由柯西算子构成的扰动因子策略增强种群变异性,拓宽最优粒子搜索空间,帮助逃离局部最优。综合以上两点,提出一种自适应指数惯性权重粒子群优化算法;最后在不同测试函数上进行对比实验,实验结果表明:算法精度和稳定性有所提高。(2)提出了一种新的适应度函数构造方法作为结合AEW-PSO和密度峰值算法的桥梁,综合考虑了局部密度、距离参数以及类内离散度等,更科学的指导聚类中心的选择,提高了算法效果。将基于AEW-PSO优化的密度峰值算法应用在文本聚类中,采用更符合文本距离计算的余弦距离代替原本的欧式距离度量,并提出了算法的整体框架。最后通过对比实验验证了本文提出的算法在准确率、召回率、F1值等三个评价指标上整体取得了最优值,有效实现了文本聚类。
其他文献
协同论汲取了耗散结构理论的观点,深刻揭示了非平衡系统从无序转化为有序的内在机制。从理论和实际的层面分析了协同论在现代企业管理中的普遍运用和重要启示,探明了在动态复杂
目的:了解胸段背根神经节(dorsal root ganglion, DRG)与微创介入治疗相关的影像解剖信息,并对比评价常用影像成像技术对胸段DRG的显示价值。方法:尸体解剖观察:对6具正常人
阐述了盐酸西替利嗪口腔崩解片的处方制备及质量控制的方法。方法:在本次研究中,对盐酸西替利嗪口腔崩解片制备处方进行研究,采用了先制备湿颗粒再干燥、整粒、压片的制备工
公司的核心就是法人治理体系,目前,制约国企发展的深层次矛盾依然存在,尤其体现在法人治理体系上。本文主要就这一点问题展开分析研究,提出问题,针对权力的制衡、监督管理等
一、少年儿童心理失衡的根源分析(一)家庭教育方法不当家是孕育和创造生命的摇篮,是人生的起点。家长是孩子的第一任教师,家庭是孩子的第一课堂。家庭教育对孩子的成长有着不可替
利用基础产酶培养基从保藏的9株白腐真菌中筛选得到一株高产漆酶菌株毛栓孔菌XYG422,并通过单因素试验对该菌株发酵培养基及培养条件进行优化筛选,获得较高产漆酶能力,同时研
当前,全球对于环境污染问题高度关注,改善、防范环境污染意识不断增强。其中,水污染作为环境污染的重要分支,给生活、作业带来的后果尤为恶劣,如何防止水污染、对水环境进行
目的:收集海南省汉族(夫妇双方为汉族)和黎族(夫妇双方至少一方为黎族)有生育重型地中海贫血高风险的孕妇进行羊水穿刺数据,分析汉族和黎族胎儿地贫基因突变的检出率及突变类型及
事业单位作为政府部门,在新形势下我国经济体制改革中应该要做好排头兵角色。事业单位的经济管理模式与普通的企业有很大的区别,涉及的相关问题也较为复杂。目前我国事业单位
【研究背景】主动脉疾病(aortopathy)系严重影响人类健康的疾病之一,主要包括主动脉夹层、主动脉瘤、动脉粥样硬化、单纯动脉血栓、主动脉缩窄等。尤其是主动脉夹层发病急、