贝叶斯模糊聚类方法的鲁棒性及其对大数据集处理的相关研究

来源 :常州大学 | 被引量 : 0次 | 上传用户:ConchConch
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,数据的产生和使用日益增多,同时随着数据存储技术的进步,使得收集到的数据的规模越来越庞大,但是收集到的数据往往是杂乱无章的,数据中包含很多无用的信息,并且由于人工标记的代价十分昂贵,所以有标签数据稀少而无标签数据庞大且容易获取。无标签数据对应无监督学习,聚类分析作为无监督学习的典型方法,在发掘数据间的内在联系与潜在规律方面具有重要意义。对于数据中包含很多无用信息,如何避免在提取数据有效信息时无效数据对有效数据的干扰,即提高算法的抗噪能力;数据集规模庞大,不能直接导入内存,如何降低在算法运行过程中的时间具有重要意义。针对这两方面的问题,本文在将模糊方法与概率方法相结合并具有概率方法和模糊方法共同特点的贝叶斯模糊聚类算法(Bayesian Fuzzy Clustering,BFC)的基础上做了如下工作:1.针对传统聚类方法在算法初始化时要指定聚类数的问题,提出了一个贝叶斯可能性聚类模型,推理出了一种具有良好抗噪能力的可以估计聚类个数的可能性聚类方法。使用贝叶斯推理和粒子滤波推理为模型找出最大后验参数值,并利用泊松分布估计聚类数的最优值。在求解样本隶属度的过程中使样本点的隶属度值仅与该样本点和其对应的聚类中心的距离有关,从而模型的抗噪能力得到提高。在Iris和Wine这两个UCI标准数据库中的数据集、Armstrong-2002-v2和Bhattacharjee-2001这两个医学数据集与真实环境中采样得到的脑CT图像数据集上进行了验证,结果表明了该方法的有效性。2.针对由于数据集过大而无法直接导入内存、BFC算法较高的时间复杂度导致其在处理大数据集时时间消耗问题,提出一种在线贝叶斯模糊聚类方法(Online Bayesian Fuzzy Clustering,OBFC)。该方法在BFC方法的基础上引入在线学习框架,同时将大的数据集按比例划分为若干个小数据块,并对每个数据块进行加权贝叶斯模糊聚类(Weighted Bayesian Fuzzy Clustering,WBFC),将每个数据块得到的聚类中心合并得出最终的聚类中心,从而减少对计算机内存的消耗,降低算法的运行时间。在2D2C和4D4C这两个合成数据集与Skin数据集上进行了验证,结果表明了该方法的有效性。
其他文献
行人重识别的目的是判断无交叉的摄像机所拍摄的行人是不是同一身份。根据数据的组成不同,可以分为基于图片和基于视频两大类,相比于单张图片,视频行人重识别是由多张图片组成的视频片段,包含更丰富的时间信息,而且摄像机拍摄的原本就是视频数据,更容易获取,因此本文的研究主要以视频行人重识别方法为主。目前,大多数方法都是基于有监督的设置并且已经获得了很好的性能,但是现实场景中,最初获得的视频数据往往是无标记的,
随着社会安全意识的提高,城镇的一些重要场所对监控摄像头的需求越来越大。行人重识别受到了专家学者的关注,大量成果涌现而出。行人重识别主要有两种:图像行人重识别和视频行人重识别。前者利用行人图像匹配同一行人在不同摄像机视图下的行人图像,后者直接利用信息更加丰富的行人视频片段匹配同一行人在不同的摄像机视图下的行人视频片段。为了达到数据集标注少但模型精度高的目的,本文着重研究单标注样本视频行人重识别,针对
行人检测是指在图像或者视频中检测行人对象,并标记出行人在图像或者视频中的相对位置。在实际场景下,由于行人目标偏小、行人间相互遮挡、行人被其他物体遮挡等情况的出现,使得行人检测具有极大的挑战性。行人检测在智能视频监控、车辆自动驾驶等领域有着广泛的应用,这也让行人检测成为一项热门的研究课题。本文在单阶段目标检测算法上,针对行人检测在实际检测场景下的难点,将算法进行改进,提高算法在行人检测任务上的性能。
大脑功能网络(BFN)是认知神经科学中非常重要的研究内容,目前已经成为人类认识和研究大脑的工具,并且被广泛应用于脑疾病的病理研究和辅助诊断。本文将正常被试和轻度认知障碍(MCI)被试作为研究对象,使用两类被试的静息态大脑功能磁共振成像(f MRI)数据构建动态大脑功能网络(DBFN),并结合机器学习中的特征学习与分类方法对DBFN进行了多个方面的研究。本文主要内容如下:(1)基于图正则化非负矩阵分
注意多动缺陷障碍(ADHD)作为一种儿童常见的神经发育障碍,目前已成为我国的一个严重公共卫生问题,需要及时干预、及时治疗。功能性磁共振成像(fMRI)为ADHD的神经机制研究提供了技术手段。基于视觉注意俘获任务下的ADHD儿童与正常对照儿童fMRI数据,研究ADHD儿童在特定刺激下的脑功能网络特征变化,具体如下:首先,采集ADHD儿童与正常儿童在视觉注意俘获任务下的fMRI数据,探寻ADHD儿童与
为构建"全域互联,透彻感知,数据融合,协同管控"特征的大坝施工智慧化管理体系,针对现有大坝施工管理系统缺乏数据关联分析和可视化辅助决策等问题,提出了基于数字孪生的大坝施工智慧管理平台总体架构和数据集成模型。探讨了GIS+BIM数据融合、微服务架构设计、大数据集成分析等技术在智慧管理平台中的应用。最后通过新集水电站智慧施工管理平台的应用案例,指出基于数字孪生技术的大坝施工智慧管理平台具有实时性、可视
钢的粉末法铝铬共渗层比粉末法单一渗铝、渗铬层具有更优良的综合性能,能有效提高表面硬度、耐磨性、耐腐蚀性和抗高温氧化性等。传统的粉末法铝铬共渗存在处理温度高、保温时间长、渗剂利用率低等问题。为克服传统粉末法铝铬共渗存在的问题,本研究主要以Q195钢和45钢为研究对象,在粉末法铝铬共渗保温过程中施加交流电场进行交流电场粉末法铝铬共渗。通过观察、测试与分析渗层的组织与相结构、生长规律、显微硬度分布及高温
海洋是人类活动不可缺少的一部分,它蕴含着取之不尽的资源,合理的利用能够产生庞大的经济效应。对于海洋资源的开发与利用少不了对于海洋钢材的开发与应用,但因为海洋环境复杂严酷的特性,使得其中的钢材很容易发生海水腐蚀与磨损等问题。同时海水中还存在的很多盐和其他化学污染物也将加速海洋环境中钢材的腐蚀的速度,减少钢材的使用寿命。S355钢拥有高强度、优秀的塑性以及耐疲劳性能,是一种新型结构钢,目前在海洋平台上
大多数的超疏水表面容易被外界环境的化学或机械损伤从而失去超疏水性能。通过研究自然界中的一些生物的超疏水表面研究发现,自然界中的超疏水表面在受损后能够自愈从而恢复本身的超疏水性能,由此研究人员以自然界的自修复超疏水表面为启发开始研究具有自修复功能的超疏水人造材料。超疏水表面的微纳米结构和低表面能是导致涂层表面能够超疏水的重要原因。本课题选择这两个基本要素之一进行设计:通过修复涂层表面的低表面能物质来
软件缺陷预测通过设计一个鲁棒的机器学习模型,可准确判断待预测软件模块中是否存在缺陷程序,进而为合理分配测试资源以及提高软件可靠性提供指导。软件缺陷预测是一个代价敏感学习问题,即将有缺陷程序错判为无缺陷程序造成的代价大于将无缺陷程序错判为有缺陷程序造成的代价。软件缺陷预测存在的另一个问题是跨项目软件缺陷预测问题,即目标软件项目的样本数目少,希望通过利用与其数据分布不同的其他软件项目的样本,提升学习模