移动时间势能聚类算法的研究与应用

来源 :江南大学 | 被引量 : 0次 | 上传用户:cyg858644
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
2016年Yonggang Lu等人提出了一种移动时间层次聚类算法TTHC(Travel-Time based Hierarchical Clustering)。TTHC算法根据对数据点势能的分析,采用全新的以移动时间为基础的相似性度量,能够获得更佳的聚类效果和聚类精度。但是TTHC算法也有着一些问题:TTHC算法得事先人工设置类簇个数,并且TTHC算法在给数据点分配类别的时候只根据数据点与数据点的相似度,TTHC算法没有考虑到数据点的势能和数据点到其父节点的距离的影响;TTHC算法不能对数据集里的噪声数据作出识别,噪声数据容易干扰聚类结果,以上问题限制了TTHC算法的应用。本文改进了TTHC算法的以上问题,然后把改进之后的ACTT算法和APCTT算法运用到微博文本聚类里。本文详细内容主要有如下几方面:(1)针对TTHC算法人工设置类簇中心个数且在给数据点分配类别的时候产生问题,提出了一种自动确定聚类中心的移动时间势能聚类算法(ACTT:Automatically Clustering based on Travel-Time)。ACTT算法先是计算数据点的势能和数据点之间的相似度,然后通过相似度来确定数据点的父节点,从而得到与父节点的距离;其次依据数据点与父节点的相似度以及距离和数据点的势能计算综合考量值,基于综合考量值自动确定聚类中心;最后,把剩余数据点分配到比其势能小且和其相似度最大的数据点所在类簇,获得聚类结果。经理论的推导与实验结果的比较分析,ACTT算法可以自动确定类簇中心,此外ACTT算法对数据点的类别分配机制进行了优化,算法效果也更好。(2)针对TTHC算法无法识别出数据集中的噪声数据且聚类结果易受噪声数据的影响的缺陷,提出了抗噪的移动时间势能聚类算法(APCTT:Anti-noise Potential Clustering Algorithm based on Travel-Time)。APCTT算法首先计算每个数据点的势能和数据点之间的相似度,再根据相似度寻找每个数据点的父节点,从而计算数据点与父节点的距离;其次依据数据点与父节点的距离和数据点的势能获得?值,根据?值大小构建递增曲线,通过寻找递增曲线中的拐点来识别出噪声点,把噪声数据归到一个新类簇中去;最后对去除噪声点后的数据集按照数据点与父节点的距离进行层次聚类,获得聚类结果。通过理论证明和对比实验,APCTT算法能够识别出数据集中存在的噪声数据点,从而能够取得更优的聚类结果和聚类准度。(3)将本文提出的ACTT算法和APCTT算法应用到了微博文本聚类中。首先收集微博文本数据,然后对文本数据进行预处理,再对处理后的数据提取特征以及权值计算,最后对经过PCA降维后的权值矩阵聚类,根据实验来比较每个聚类算法的性能,证明了ACTT算法和APCTT算法的实际价值。
其他文献
我国作为商标注册取得制度的国家,充分保障商标注册人的权益,但对于一些未注册商标的在先使用人保护却存在一定缺失,第三次修订的《商标法》第59条第3款规定了商标先用权制度
在海德格尔庞大的作品群中,伦理问题似乎从来没有在重要位置占据过一席之地,在他早期作存在论探索的作品中显得尤其如此。但是,如果不逡巡于现行的关于伦理学的诸种规定,而借
郭芳五是民国时期河南地区著名的耆绅,也是有名的慈善家和社会活动家。青年时先后就读于开封明道学院、尊经学堂和广东法政学堂,毕业后,曾供职于广东清理财务局。后加入同盟会,参加豫西地区的辛亥革命运动。民国后,他又担任河南省议员、国会众议院议员、总统府咨议、刘镇华驻京办事处主任、陕西省政务厅厅长等职。多年的宦海沉浮使当初踌躇满志的郭芳五渐渐对政治和改革失去了信心,再加上频繁多发的自然灾害的冲击,心怀善念且
《春之声》原作是奥地利作曲家约翰·施特劳斯的第410号作品,是奥地利作曲家约翰·施特劳斯的著名曲目之一。在查找资料时发现,本首作品先后有三位改编者,本文介绍的是亚尔尼
目前的研究是在巴基斯坦信德省海德拉巴的男性服饰时尚的民族志研究。该研究是通过在“Tilak Charhi”市场上的一家小型传统布料销售店“Sae Cut Piece”进行的。本研究的主
近年来,虚拟现实软硬件技术快速发展,人们逐渐增大了对自然场景和现象的仿真兴趣。洪水、泥石流、溃坝等都是世界上非常严重的自然灾害,给人民生命和国家财产带来了巨大的威胁。通过虚拟现实技术对给定区域进行灾害仿真与险情预演,将对灾害防治与抢险救灾提供巨大的指导作用,具有重要的应用价值与研究意义。液固交互是这些场景中共同存在的现象,也是对其进行仿真的难点问题,尤其对于大规模场景的仿真。本文针对这一难题开展研
“不知者无罪”是我们日常生活中经常说到的一个俗语,它指的是如果一件坏事是在不知情的情况下实施的,那么往往会得到原谅,这其实反映了意图在道德判断中的作用。以往的研究
在信息纷杂的时代背景下,明辨真假的洞察力越来越重要,这就需要人们具备批判性的眼光与素养.职前数学教师作为教师队伍的储备力量,他们的认知能力影响一代又一代人.因此,职前
近年来,由于能源危机和随之而产生的环境污染问题,寻求可持续的清洁能源已成为一项世界性的挑战。热电材料能够将热能直接转化为电能,并且不产生任何污染,是一种十分有潜力的新能源材料,这也受到人们的广泛关注。为了实现更广泛的热电应用,最具有挑战性的方面是提高热电材料的效率,因此,寻找本征ZT值较高的半导体材料是获得高热电转换效率的有效途径。基于第一性原理,我们计算半导体的各个热电相关的输运系数,综合评估材
目标区域提取与检测是计算机视觉中备受关注的问题,广泛的应用于视频监控、行人识别、无人驾驶等军事和生活的前沿领域。随着应用领域的拓宽与科技的发展,人们对于视频目标的检测速度和准确率有了更高的要求。研究的重点部分在于提取出可能存在目标的候选框并进行筛选。而常见的光照、视角、背景遮挡、目标过小等问题,给目标区域的提取与检测的研究带来了难题。针对以上问题,本文对视频中的目标区域提取与检测算法进行了研究与改