基于置信学习理论的数据扩增方法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:huangpeifei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
有监督机器学习模型需要采集大量有标注的数据,会消耗较高的时间和人力成本。相比而言,无标签数据的获取较为方便,通过这些无监督样本对有限的训练集进行扩充可以提升模型的泛化能力。自训练模型通过特定的筛选机制将预测样本不断加入训练集,从而实现数据扩增。置信学习理论能衡量预测样本与已知的训练样本的一致性,在给出预测标签的同时提供可信度信息。本文以电子鼻数据为例,利用无标签数据探究了基于置信学习理论的数据扩增方法。本文主要研究工作及成果包括:1.提出了集成式的数据扩增方法EICP(Ensemble Inductive Conformal Prediction),在训练集数据缺失的模拟场景下与其他的数据扩增方法进行对比。实验模拟了训练集数据数量缺失和质量不匹配两种场景,分别设置不同程度的数据集比例划分和人为增噪。以模型在数据扩增前后的分类准确率变化作为衡量指标,通过多次重复实验的统计显著性分析,EICP能在大部分训练集数据缺失场景下对模型产生显著的提升效果,综合表现超过了其他与之比较的数据扩增算法。2.针对实际场景中高维数据,提出了一种基于收缩质心算法的置信学习机:CPSC。该算法和常用的基于K近邻算法的置信学习机(CPKNN)同样采用样本空间中的欧氏距离作为预测的判据,但CPSC通过正则化后的类别中心进行分类的概率预测,且去除与分类无关特征的干扰,能极大节省运算资源。通过在电子鼻数据及公开数据集上的对比验证,CPSC在离线预测和在线扩增模式下都比CPKNN更高效,用更少的运算时间取得更高分类准确率,提供的可信度信息也更加准确。本文还构建了其他三种分类原理不同的置信学习机:CPSVM,CPLigh GBM,CPANN,分别与CPSC在电子鼻数据上进行比较。在离线模式中,CPSC性能最优;在在线模式中,CPSC是唯一在所有的置信度水平阈值情况下都稳定地提升模型性能的置信学习机,在扩增样本的种类分布上也更加平衡。综上所述,在本文的研究中,置信学习理论在自训练模型中的优势得到了验证,其可信度信息得到了充分的利用。本文还创新性地针对高维数据对常用的置信学习机进行了改进,为今后医药领域等高预测风险场景下的数据扩增提供了新的思路与方法。
其他文献
癌症是一种严重威胁人类健康和生活的恶性疾病,抗癌药物的研发迫在眉睫。蛋白激酶CK2(Protein kinase CK2)因调控多种细胞生理过程而被认定为重要的抗癌药物靶点。然而,其多数ATP竞争性抑制剂因存在选择性差及成药性低等缺陷而未能成为候选药物,因此,具有高选择性及高成药性的新型CK2抑制剂仍亟待研发。本论文针对丙烯酮骨架,整合定量构效关系及定性分类研究、药物合成及生物学实验等研究策略,开
学位
语音合成(Text to Speech,TTS)是指从文本到音频的生成,具有非常广泛的应用场景。近年来,人机交互需求的增长对合成语音的质量也提出了更高的要求。随着神经网络的发展,语音合成从传统的统计参数估计逐渐转变为基于深度学习的序列建模方法。合成过程通常包括使用声学模型从文本前端得到声学特征,然后使用声码器从声学特征生成波形。在声学模型的研究中,时长建模是一个非常关键的问题,它很大程度上影响了合
学位
近些年,随着物联网、大数据、人工智能和5G通信等技术的快速发展与不断普及,相关领域的电子设备与产品也朝着更高速率、更高带宽及更高密度方向不断提升和发展。目前高速串行链路的单通道速率已经从5Gbps、10Gbps发展提升到25Gbps,甚至56Gbps。随着电路中传输速率及时钟频率的不断提高,高速信号在传输中受到损耗、反射、谐振和串扰等信号完整性问题影响的趋势也日益严重。对于传输速率达到Gbps的高
学位
气液两相流在自然界及工业领域广泛存在,随着设备小型化和微型化的趋势以及小通道优良的传质传热特性,小通道气液两相流成为研究人员关注的重点。段塞流是小通道气液两相流中最普遍存在的流型,且小通道内段塞流参数的测量对于保证工业过程可靠性至关重要。但目前,针对小通道段塞流的参数测量研究尚不充分,相关的测量方法较为匮乏,不能满足工业领域的应用需求。因此,对小通道段塞流参数测量的研究工作具有很大的科研和应用价值
学位
随着科技的飞速发展,自动驾驶技术逐渐成为如今研究的热点。在校园场景中,自主运行的无人驾驶系统对于解决师生“最后三公里”的出行需求有着重要的实际意义。然而,现有的自动驾驶技术严重依赖于详细的高精度先验地图,高昂的地图制作与维护成本不利于校园自动驾驶技术的落地。本文的主要研究内容是校园场景中智能车的自主导航系统设计,目标是在不依赖高精度地图的情况下完成校园内智能车辆的自主导航任务。要实现这个目标,首先
学位
探究基因调控网络拓扑结构、准确识别基因模块是生物信息学的重要研究内容。基因调控网络的重构与基因模块的识别有助于解析基因间的关系、揭示基因功能,为疾病病理研究与靶向药物研发提供帮助与支持。两者的发展相辅相成相互促进,基因调控网络拓扑结构中存在基因模块,同时基因模块内的网络调控关系又更为活跃与密切。本文利用机器学习相关算法,从基因表达数据出发,深入研究了基因表达数据的模块识别与基因调控网络重构方法,在
学位
乳腺癌的发病率逐年升高,已成为全球第一大癌症。癌症快速筛查以及治疗效果评价是提高癌症生存率和降低死亡率的关键,因此,迫切地需要一种简单快速的方法,对诊断和治疗乳腺癌进行监控,以提升患者的生存率。表面增强拉曼光谱(surface enhanced Raman spectroscopy,SERS)是一种新兴的光谱分析技术,具有快速、灵敏、“指纹图谱”的特征,可在分子水平进行信息检测。本研究利用单细胞S
学位
散热片是为电器中的发热电子元件散热的器件。随着科学技术的发展日新月异,电子设备对散热片的需求数量也稳步上升。再加上生产电子设备的厂商引入机器人进行元器件的自动夹持、安装与焊接。因此对散热片的总体尺寸和铆接针脚尺寸提出了更高的要求。而长期以来散热片生产环节都存在工作环境差,劳动强度大,生产效率低的不足之处。本文在广泛调研查阅文献资料的基础上,围绕着开发散热片插针铆接自动化工作站开展了工作。首先分析了
学位
目标识别是智能感知领域中机器视觉方向的研究热点之一。随着全球数字化进程的发展,大面积海量布置的相机存在参数差异、图像在全天候获取过程中存在外界环境变化、同来源的大规模训练数据难以获取等因素都会导致训练时的源域数据与测试时的目标域数据在特征空间的分布差异较大,即产生跨域问题,进一步增加了识别的难度。因此,当下面向目标识别中的跨域问题研究十分紧迫且具有重要的意义。本文以目标识别中的行人重识别和小样本学
学位
纹理合成是图像处理和计算机图形学领域中的经典问题。传统的纹理合成方法已经在均匀纹理的合成上取得了成功,并且得到了广泛的应用。但是非均匀纹理更为复杂且表现出各向异性的特点,现有的纹理合成方法在合成这类纹理时很难取得令人满意的效果。一方面,传统的纹理合成方法通常假设样图是均匀的,通过纹理中存在的局部相似性或全局一致性合成大面积纹理,但这类方法很少涉及非均匀纹理;另一方面,基于深度学习的方法在处理一些纹
学位