基于特性分析的新型弹性网络聚类算法研究

来源 :北京建筑大学 | 被引量 : 0次 | 上传用户:liuwu123123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析作为数据挖掘领域的核心方法之一,在从海量数据中发现数据自然结构并获得有用信息方面起着非常重要的作用。目前一些聚类分析方法具有针对性,求解效率低,算法稳定性较差。弹性网络因其稳定的网络结构及坚实的理论基础,能够提高算法稳定性及算法效率,在求解组合优化问题上极具优势。弹性网络最初用于求解旅行商问题,求解时将整个系统类比为物理系统,以最小化能量函数的方式求解。本文调整优化了弹性网络的网络结构,并在求解过程中引入自定义的特征加权方法,将弹性网络成功应用于求解大规模聚类问题。针对当前传统聚类算法存在的不足,本文从网络结构调整优化和噪声特征处理两个角度对算法进行了改进:为了提高算法的稳定性和求解大规模数据的能力,本文根据弹性网络、确定性退火技术和极大熵原理,提出了引入特征选择初始化策略的弹性网络聚类算法(Elastic Net Clustering Algorithm Introduced with Feature Selection Initialization Strategy,FSENC)。算法首先定义了新的聚类代价函数,并将其与弹性网络能量函数的目标函数进行替换,得到了能够求解聚类问题的新能量函数。算法还优化了自由能函数的结构,提升了算法求解效率与求解能力。其次,算法提出了一种能够根据空间数据分布动态调整的初始化方法,能够有效提高聚类算法的灵活性。FSENC是一种无监督的优化算法,能够通过自学习来解决聚类问题,无需人工训练或干预。由于弹性网络独特的网络结构及求解方式,使得算法能够在求解高维大数据量聚类问题时有更高的稳定性,得到更高的聚类质量。数据中的噪声特征会增加算法求解的复杂度,并且极易影响算法聚类过程的稳定性。针对这个问题,本文提出了基于特性分析的新型弹性网络聚类算法(A New Feature Analysis-based Elastic Net Clustering Algorithm,FAENC)。算法在FSENC的基础上,引入特征加权思想,定义了一种能够根据特征离散度对各维特征进行自动加权的方法。FAENC能够有效降低聚类过程中噪声特征的影响,提高聚类质量和效率。本文将FSENC和FAENC算法在大量人工合成数据集进行了实验仿真,并与大量传统的和较新的聚类算法进行了对比。实验结果表明,FSENC算法和FAENC算法求解过程更加稳定,能够求解更大规模的数据,识别多种结构的簇,相比于对比算法有更高的求解质量。FAENC算法在处理噪声特征数据方面比FSENC算法更有优势。为了进一步证明所提出的算法能够应用于实际应用中,本文选取了UCI库中的真实应用数据集进行了对比实验。对于真实数据集,FSENC算法比其余对比算法聚类精度平均提高12.76%,FAENC算法比其余对比算法聚类精度平均提高16.78%。相比于其他聚类算法,FSENC与FAENC算法均能够很好地应用于求解实际聚类问题。所提出的算法有求解精度高、稳定性强、算法效率高、抗噪能力强、普适性好、灵活性高等优点,尤其在求解高维大数据量聚类问题时更具优势。
其他文献
当前地铁建设在我国发展火热,对于地铁建设来说,盾构法施工相对安全快速经济,已经成为城市隧道等地下工程的主要施工工法。盾构接收是盾构工程中最危险的环节,在该环节中由于盾构的不断掘进,前方土体变为有限土体,不再满足半无限空间状态,导致正常盾构掘进阶段推力不再适用于该阶段,同时这也造成在该阶段盾构掘进对有限土体及接收井围护桩的影响规律尚不清晰。为解决上述问题,本文以北京地铁12号线某盾构接收工程为工程背
学位
抗生素的滥用导致环境水体中抗生素含量逐渐增加,含有抗生素的污水会对水生态、水环境和人类的身体造成极大的危害,因此必须高效清除环境水体中的抗生素残留。盐酸黄连素作为广谱类抗生素的一种,在水体中通常以痕量形式存在,目前常规水处理方法效果不佳。吸附法和光催化法因其效率高、无毒副产物等优点是处理盐酸黄连素废水的一种良好选择。环境纳米材料是吸附法和光催化法常用载体,可以快速吸附降解盐酸黄连素,但通常由于选择
学位
加强司法警察队伍标准化建设,是关系监狱公正文明执法的重要举措,是巩固和提升监狱警察履职能力和监狱执法公信力的重要途径,更是完善监狱治理现代化制度体系建设的重要保证。在监狱警察队伍标准化建设过程中,应切实突出监狱政治建警标准化范式及体系建设的重要性和必要性。
期刊
中国保险业作为我国金融“三驾马车”之一,近年来出现井喷式发展,我国保险规模保费已位于全球第二。保险中介代理机构作为保险公司至客户的中间桥梁,解决了客户多样化的保险保障需求,为我国保险业的快速发展起到重要作用。我国保险中介数量已达到2616家之多,但公司发展极不平衡,绝大多数公司挣扎在“生命线”上。互联网保险代理是保险代理的一种,互联网保险营销是随着保险科技应用于金融行业的产物,是一种保险销售的新形
学位
透水铺装是一种典型的海绵城市设施,可产生城市雨水径流减排、水质净化等多种环境效益。另一方面,在材料制备、施工、维护管理过程中,透水铺装相对于传统铺装资源能源消耗有所增加,需应用生命周期评价(Life Cycle Assessment,LCA)这一系统分析方法,开展透水铺装的资源环境效益的综合评估。通过文献述评,本文总结了生命周期评价方法应用于透水铺装评估的现状与面临的挑战,并提出了相应对策,一是需
学位
单层钢结构厂房围护结构常用的压型钢板可利用本身的刚度参与结构整体受力并传递剪力,能明显加强整体结构刚度,提高结构整体空间性能,因此在实际工程设计有必要考虑围护结构对单层钢结构厂房抗震性能的影响。从近年来单层厂房的震害情况以及设计资料可以发现,结构设计较少考虑围护结构的作用,导致地震作用下发生超出设计预期的结构破坏形式,因此有必要开展考虑围护结构的单层工业厂房抗震性能研究。本文以某现役典型单层钢结构
学位
干旱是一种破坏力极强的长期自然灾害,除了会对农业、畜牧业造成直接损害,还会引发严重的次生灾害,对经济发展、水资源利用、国民建设等造成威胁。近年来,全球气候变化进一步加剧了极端干旱事件发生的频率,因此对干旱进行持续深入的研究是气候变化研究中的重要内容。目前利用干旱监测模型对全球干旱进行动态模拟的研究已经取得了长足的发展,而对于干旱时空传播模式的认知尚浅。了解干旱的动力学传播特征不仅有利于全面刻画干旱
学位
机械振动同步是振动利用工程学科中一个重要研究课题。随着工程实践需求的不断提高,高功率与高精度的振动同步机械的研发逐渐成为振动利用工程学科的热点研究方向。通过增加电机数目从而提高整机功率,进而实现多电机驱动振动系统的同步;采用智能控制方式对电机的运行状态进行调控,从而实现振动系统高精度的同步目标。这两方面的研究均具有一定的理论研究意义以及工程实际利用价值。本文以单质体直线对称分布双机驱动动力学模型与
学位
在现代工业生产中,统计过程的控制主要是为了改进和保障产品的质量,其中过程能力指数是统计过程控制中的主要工具,可用来衡量工厂的生产过程是否达到了预期的水平。当前广泛使用的过程能力指数均需满足正态分布,然而,在实际生产中,多数加工过程并不是简单地服从正态分布,而是呈现非正态的形式,因此研究非正态分布下的过程能力指数具有很重要的现实意义。本文在前人研究的基础上,主要探讨生产过程服从逆瑞利分布和对数逻辑分
学位
太阳能是一种可再生清洁能源,其可见光及红外波段具有巨大的能量可用来提供工业和居民用热。太阳能光热转化之间通过集热器作为转换媒介,传统集热器通过集热材料板吸收太阳辐射,这种间接式集热器在转换的过程中产生大量热损失。近年来一种新型直接式太阳能集热器研究广泛,主要利用微纳悬浮液较强的光学吸收特性和优异的热物性,与太阳光进行直接转换,能降低间接转换过程中热损失,进而提升集热效率。微纳悬浮液是指在传统工质中
学位