基于聚类的代表点获取算法及其应用

来源 :烟台大学 | 被引量 : 0次 | 上传用户:LZLZ
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘的一项重要功能,是数据挖掘领域中一个非常活跃的研究课题。聚类分析既可以作为一个独立的工具来发现数据的全局分布模式,也可以作为其他算法的预处理步骤广泛应用于其他研究领域。在互联网、生物信息、商务电子等许多领域都可以借助聚类分析方法帮助解决相关问题。数据采集和存储技术的进步导致庞大的数据日益增多,然而单纯的统计技术和传统的数据挖掘技术已经不足以解决一些日益复杂的数据问题,特别是涉及海量数据集的问题。本文从聚类分析的角度出发,探索能够有效处理海量数据及大数据的分析和管理方法,主要包括以下几个方面的内容:针对实际数据集中存在少量带有类别信息的数据,提出了一种两阶段近邻传播半监督聚类算法2SAP,以k-近邻图表示数据分布的局部信息,利用少量的先验成对约束信息调整相似度矩阵,两次借助半监督的近邻传播算法SAP得出最终的代表点集合。针对实际数据集存在类别交叉重叠的特点,对现有的SRIDHCR算法进行了优化处理。设计算法获取初始中心代表点集合和初始边界代表点集合,将二者的并集作为SRIDHCR算法的初始代表点集合,从而可以大大降低算法的运算时间。此外,设计方案将代表点获取算法应用于生物信息学和文本分类中,并通过实验数据证明了方案的可行性。
其他文献
人群仿真在影视动画、城市规划、游戏培训等各领域均有广泛的应用。如果人群仿真中的虚拟人物角色过于雷同,就会给人简单复制品的感觉,真实感较差。本文研究人群角色多样化问题
复杂图像中的目标检测是视觉领域的研究热点,在工业领域、军事领域、智能识别等领域发挥着巨大的作用。随着当前图像的复杂化,目标检测由于图像场景的复杂性、目标姿态的变化
在信息高速发展的当代,计算机网络已经成为我们共享信息最重要的途径,云的出现使得共享信息变得更为方便,云平台是一个能够向用户提供软硬件、数据资源等服务的系统,用户只需要利
从二维图像中恢复出目标场景深度信息是计算机视觉研究的关键问题,也是目前研究最多、应用最广、发展最迅速的一个领域。深度信息恢复技术可以广泛应用于三维信息重建、机器人
多机器人追捕目标问题作为多机器人系统中的一类典型合作与竞争问题,它研究的是一群追捕机器人如何通过合作去有效地捕获另一群逃跑机器人,已成为多机器人技术研究的一个热点
蛋白质复合体对于研究细胞活动具有重要意义。因此,从蛋白质相互作用网络中有效地识别出蛋白质复合体,是能够促进生物信息学向前发展的一项重要工作。  蛋白质相互作用网络
无线传感器网络(Wireless Sensor Network, WSN)是由部署在监测区域内的大量廉价、体积小、电源能量以及存储和数据处理能力有限的、具有无线通信能力的传感器节点通过自组织单
随着计算机的快速普及和Internet技术的迅猛发展,网络上的各种信息呈现指数级的增长,Web已经成为一个巨大的信息资源库,从海量数据中快速、高效地获取用户需要的信息成为了一种
DNA甲基化现象是最早发现的,最重要的表观遗传学现象之一。DNA甲基化现象普遍被观测到参与基因的调控过程,与生物体的生长,发育息息相关。甲基化还与各种疾病有密切联系。许
人脸包含许多重要的视觉信息,是表现人与人之间差别的重要生物特性之一。人脸识别已经成为模式识别、图像处理和信息安全等领域中最具有挑战性的研究课题之一。在身份的自动辨