【摘 要】
:
近年来随着科技的不断发展,数据资源的重要性愈发突显。因为它记录了客观事物各方面的性质和特点。通过对数据的探索和分析,可以挖掘出数据潜在的大量价值,这些价值都能更好的改善生活的方方面面。为此,各行各业都存储了大量的数据,如生物医学领域的疾病数据,计算机视觉领域的图像数据,自然语言处理的文本数据等。为了能够更好的挖掘数据潜在的价值,许多数据挖掘技术成为了近几年来的研究热点,如:聚类,分类和推荐算法等。
论文部分内容阅读
近年来随着科技的不断发展,数据资源的重要性愈发突显。因为它记录了客观事物各方面的性质和特点。通过对数据的探索和分析,可以挖掘出数据潜在的大量价值,这些价值都能更好的改善生活的方方面面。为此,各行各业都存储了大量的数据,如生物医学领域的疾病数据,计算机视觉领域的图像数据,自然语言处理的文本数据等。为了能够更好的挖掘数据潜在的价值,许多数据挖掘技术成为了近几年来的研究热点,如:聚类,分类和推荐算法等。大规模的数据可以更加全面地刻画事物的客观规律,但是处理大规模数据也成为了数据挖掘研究中的难点,“大数据”一词因此应运而生。大数据下,数据的分析存在这样的问题:1)样本的维度高,2)大量数据缺乏标注。处理大规模数据的难点在谱聚类算法中变得尤为突显。虽然在过去几十年中提出了许多谱聚类算法,但是由于算法的时间复杂度很高导致这些算法很难应用到大数据中。并且,其中有大部分谱聚类算法都是通过两阶段求解,这就有可能导致最后求得的解跟原问题的解不一致。本文提出了三种新的谱聚类优化算法。首先本文提出了直接归一化切割优化算法。该算法通过直接求解目标函数的方法一定程度上可以避免以上问题。进而,为了进一步解决大数据处理难点,本文提出了快速的归一化切割优化算法。该算法寻找一批具有代表性的锚点,通过计算锚点和数据点构造相似度矩阵的方法,能够大大降低时间复杂度和空间复杂度。最后,为了解决数据类别模糊问题,提出了自适应的谱聚类算法。本文完成的创新工作如下:1)提出了直接归一化切割优化算法(DNC算法)。该算法使用一步优化的方法直接求解目标函数,一定程度上可以优化谱聚类算法的聚类效果。2)为优化谱聚类算法的时间复杂度和空间复杂度,我们提出了快速的归一化切割优化算法(FNC算法)。该算法通过构建一个规模较小且根据代表性的相似度矩阵,在这个低维的相似度矩阵上求解目标函数,从而实现算法降低时间复杂度和空间复杂度,使得谱聚类算法能够应用于较大的数据集中。3)前面提出的两种算法都是硬聚类算法,而现实生活中存在一些数据点的类别比较模糊,故提出一种自适应的谱聚类算法(ANC算法),通过引入平衡参数μ平衡了目标函数和归一化项两部分,并且将聚类目标Y连续化,从而解决一些类别模糊的样本的归属问题。使得算法能够在更多数据集中有好的聚类效果。4)在基准数据集中,分析了各个参数对算法性能的影响、数据及的标注情况以及选择的锚点数对聚类评价指标的影响,并将提出的三种谱聚类优化算法与近年的谱聚类算法进行了对比并验证了算法的优越性。
其他文献
自2018年以来,我国已经相继出台40余条扩大金融开放的措施。到2020年,我国将实现金融业开放措施的按时落地。我国金融业的对外开放正在有序、加速地进行。自2017年放开外资银行跨境混业经营的监管以来,外资银行的资产总额出现爆发性增长,截至2018年,外资银行资产总额为4.42万亿元。在外资银行进入限制不断放开的背景下,本文旨在分析影响外资银行发挥作用的因素,验证外资银行进入对我国商业银行经营效率
二维过渡金属硫属化物(TMDs)已被证明了拥有高载流子迁移率、禁带宽度对于紫外到近红外光波段理想以及与材料层数相关的能带结构等有利于光探测器应用的优秀性质。迄今为止,一系列性能优秀的二维TMDs基光探测器已被制备出来。然而,其中多数的报道都是使用剥离法或化学气相沉积法等的制备技术,有样品尺寸小、不可控、生产规模小以及生产过程不洁净的缺点。目前大量关于TMDs基光探测器的报道都是围绕二硫化钼、二硒化
钢筋混凝土梁斜截面抗剪性能是钢筋混凝土理论体系及结构设计中非常重要的一个内容,但由于影响抗剪承载力的因素众多,合理地解释其抗剪机理并给出准确的抗剪强度预测值仍是一个非常具有挑战性的问题。一百多年以来,不同国家的众多学者提出了一系列抗剪分析理论,例如经典桁架理论、变角桁架理论、拉压杆模型、压力场理论、修正压力场理论、简化修正压力场理论等。其中,修正压力场理论是一种被很多学者认为较为准确有效且被一些国
随着社会发展和生活水平的提高,人们越来越重视健康,并希望及早发现身体内潜在的疾病,防患于未然。柔性可穿戴式设备具有体积小、重量轻及穿戴简便舒适等特点,可对人体生理信号进行实时采集和连续监测,从而实现疾病的早预防、早发现,因此越来越得到广泛关注。柔性可穿戴式设备中的关键部件为高性能的柔性传感器,其中,柔性应力传感器因制备工艺简单、柔性可拉伸、贴敷性好以及探测信号丰富等优点,被广泛用于人体生理信号的实
公立医院在发展改革过程中所面临的一项迫切任务就是有效地管理大型医疗设备,加强投资效益分析、评价与考核,从而合理配置资源,提高资源利用率。我国大部分公立医院中,医疗设备中价值100万以上的大型医疗设备资产占全部固定资产的比重都过半,只有科学有效地管理好大型医疗设备,让其价值得到充分发挥,才能对医院产生巨大的效益,这是公立医院谋求出路的迫切任务。而当前我国公立医院在对大型医疗设备的投资效益进行考核评价
随着化石能源减少和环境污染的日益加剧,分布式能源被越来越多的开发利用,但是分布式能源不能直接接入到电网中,因此微电网的概念被提出从而更好地利用分布式能源,以减少对电网的影响。目前在微电网研究中,直流微电网能够友好接纳分布式电源,为用户提供优质的电能。相比于交流微电网,直流微电网减少换能装置,提高了能源利用效率。此外,直流微电网具有结构简单、各单元间协调控制简单等优点。因此,对直流微电网的研究具有重
舒适宜人的光环境对于健康建筑至关重要。已有大量研究证实了不恰当的光环境会影响人体褪黑激素分泌,影响人体节律,甚至导致一系列生理与心理疾病。同时,人们还设定了若干标准体系判断建筑光环境是否满足健康要求。屏幕设备扮演着信息源与光源的双重角色,影响着其所处的空间光环境。作为建筑空间中的新元素,屏幕被广泛用于各类建筑空间场景下,且在现代科技技术不断发展的进程中,有可能进一步演进为建筑的全新界面,重构建筑空
随着科学技术的飞速发展,电力设备的快速普及,接入电网的敏感元器件以及精密仪器逐步增多,生产生活对用电质量的要求达到了前所未有的高度。同时大型整流设备的运用以及电网覆盖面积的增加使得各类电能质量问题日益加剧,这些电网中的干扰不仅会影响电力系统的正常工作,甚至会造成设备损坏带来巨大的经济损失,因此构建高速精准的分析方法成为当下研究的热点。压缩感知作为新兴的信号分析方法,有着速度快、精度高等特点,尤其是
本文主要研究了从造纸厂碱性土壤中筛选得到的,能够产生耐碱木聚糖酶的两株放线菌X24-14和X15-17。通过16 S rRNA基因序列分析并结合菌株的形态特征以及生理生化特性,初步认为菌株X15-17为拟诺卡氏菌属(Nocardiopsis)的一个潜在新种;菌株X24-14为纤维化纤维菌(Cellulosimicrobium cellulans)。在此基础上探索了菌株X24-14和菌株X15-17
用户在社交媒体中发布的信息中可能携带着位置信息,对于不包含准确经纬度定位信息的内容,可对其分析时间和空间维度以获得用户位置的跟踪。传统的轨迹探测方法其主要缺陷在于,在检测非标准用户内容时,它对于轨迹识别的模糊内容的容错能力以及识别精度均较低;此外,对于能记录携带经纬度信息的轨迹位置信息的场景,往往由于设备的续航问题使得轨迹的补充必不可少。本文的主要的研究内容包括:1)提出基于树索引的用户轨迹发现方