基于示例选择的多示例学习算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:zqfhj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,数据的收集、存储、传输和处理能力正在飞速提升,机器学习正是处理数据时,不可或缺的核心技术.多示例学习是一种重要的机器学习方法,它是一类以包为研究对象,特殊的监督学习.一个包中有多个示例,包的标签已知,而包中示例的标签未知.现实中,很多事物都可以抽象为包,如药物分子、图像、文本等,与用一个示例表示相比,将它们用包(多个示例)表示更为恰当,因此,多示例学习自提出以来就受到了高度关注,其在理论与应用的研究上都取得了极大的发展.本文针对多示例学习中的示例选择问题进行了研究,做了以下工作:针对一些多示例算法对正包中的示例情况做出假设的问题,提出了基于模糊聚类的多示例集成算法(ISFC).首先,结合模糊聚类和多示例学习中负包的特点,提出了“正得分”的概念,用于衡量示例标签为正的可能性,降低了多示例学习中示例标签的歧义性;然后,考虑到多示例学习中将负示例分类错误的代价更大,设计了一种包代表示例的选择策略,选出的代表示例作为基分类器的训练子集.该选择策略通过样本扰动保证了各基分类器的多样性,设计了一种Bagging集成的变体.同时,该选择策略能够解决正包数量多、负包数量少情况下的类别不平衡问题;最后,结合各基分类器的决策结果,得到最终的决策值.ISFC算法对正包中正示例的比例和分布未做任何假设.实验结果表明,该算法在药物分子活性预测、图像分类、文本分类任务上都取得了较好的分类效果.针对判别式包映射多示例学习算法(MILDM)中代表示例选择数量不合理这一问题,提出了两个改进的MILDM算法:结合共享近邻的判别式包映射多示例学习算法(DBMSN)和结合局部密度的判别式包映射多示例学习算法(DBMLD).包映射多示例学习算法通过一些代表示例,将包映射为新特征空间中的单示例,然后训练示例级的分类器.此类方法的关键问题是代表示例的选择,代表示例的质量影响着最终分类器的质量.本文认为MILDM算法选择代表示例的数量不合理,遗漏了重要的示例,因此提出了两个改进,它们都基于以下思想:若某一个示例具有代表性,那么与其相似的那些示例也应该具有代表性.DBMSN算法基于共享近邻,从训练包中筛选出一些新的示例,作为新增的代表示例.DBMLD算法基于局部密度,在局部密度较低的代表示例周围生成新的示例,作为新增的代表示例.它们都是自适应的方法,无需事先确定新增代表示例的数量.实验结果表明,两种改进算法的泛化性能较MILDM算法有所提升,与其他多示例算法相比,也具有一定的竞争力.
其他文献
目的:探讨表皮生长因子受体酪氨酸激酶抑制剂(EGFR-TKI)靶向联合放疗、化疗对Ⅳ期EGFR突变型非小细胞肺癌(NSCLC)的临床效果,以及中性粒细胞与淋巴细胞比值(NLR)和血小板与淋巴细胞比值(PLR)对EGFR-TKI靶向治疗效果的预测价值。方法:1.对我院2017年1月~2020年6月收治的105例Ⅳ期EGFR突变型NSCLC患者进行回顾性分析,其中36例接受EGFR-TKI靶向单药治疗
目的:本研究旨在观察蛛网膜下腔出血患者血浆儿茶酚胺的变化规律,探讨儿茶酚胺与蛛网膜下腔出血应激性心肌病的关系,为临床诊治提供依据。方法:收集2019年10月至2020年12月在湖南师范大学附属湘东医院及湖南师范大学附属第一医院收治的符合纳入标准的蛛网膜下腔出血患者共351例,分组(1)根据是否发生应激性心肌病和急性心肌梗死分组,分为应激性心肌病组(A组)、急性心肌梗死组(B组)、对照组(未发生应激
水果分类在水果产业和社会经济发展中具有重要意义。当前,水果分类方法主要有人工分类和机器分类等。人工分类不仅浪费大量人力物力而且效率低,而机器分类的性能有待提高。随着人工智能和机器视觉的迅速发展,研究基于深度学习的水果分类方法对于提高水果分类准确率和效率具有重要的意义和广泛的应用价值。针对以上问题,本文利用深度学习研究水果分类方法,主要内容如下:⑴基于卷积神经网络(Convolutional Neu
薄壁圆管是航空、航天领域常用的结构之一,其在太空中主要受太阳光照产生的热载荷作用,结构在热载荷作用下的热变形、热应力及热疲劳问题逐渐成为研究的热点,故分析其在太阳光照下的可靠性对实际工程有重大意义。太阳光照会导致结构的温度发生变化并产生热载荷,热载荷会使结构发生变形,变形又会影响结构的温度分布,最终导致结构产生热致振动,这时结构内部的流体也会随之发生振动,热与结构、流体之间的互相作用被称为热-结构
近年来随着互联网的快速发展,其所产生的文本、图片、音视频等模态的数据也成指数级增长,人们对于多模态数据的检索需求随之增长。在海量的多模态数据中,用户如何通过一种模态的数据更准确、更全面的检索出自己需要的模态数据也是一个痛点需求。虽然目前主流的跨模态检索算法取得了不错的成绩,但仍存在着几个难题,一是不同模态数据在底层表示不一致导致的异构鸿沟,因此检索精度不高;二是在海量的多模态数据中,提取到的数据特
钢铁是世界上最重要的金属资源之一,是城市生态系统正常运转的基础物质,对城市的社会进步、经济发展、资源利用和环境保护都起到重要的作用。本研究利用DMSP/OLS夜间灯光亮度与城市基础设施铁存量之间的线性关系,估算全国城市的铁存量。在此基础上,通过建立STIRPAT扩展模型分析了影响城市铁存量的主要因素,从而实现了我国地级城市尺度上的铁存量数据构建与社会经济、气候条件和城市空间形态对城市铁存量影响力的
能源匮乏和环境恶化已经成为了困扰人类发展的两大难题。而建筑消耗了约40%的能源,排放了三分之一的温室气体,故建筑节能对缓解能源危机和保护环境有着重要的意义。就我国来讲,建筑能耗占到了我国总能源消耗的30%以上,而公共建筑能耗又占到了总建筑能耗的50%以上。高校建筑作为公共建筑的一种,其能耗主要集中于空调、照明及供暖系统,占到了高校总能耗的60%以上,其中由于围护结构传热热损失而产生的空调及供暖能耗
目前人们驾车出行普遍存在停车困难、车位信息不透明、乱停乱放等问题,对此还没有很好的解决方案,同时停车场内缺乏有效的安全管理机制,车辆被盗、车辆刮蹭等安全事故频出。如何建立高效的智能停车系统是一项重大挑战。边缘计算具有就近处理、低延时、节省资源的特点,适用于资源受限停车场节点的计算任务处理。为解决用户驾车出行的停车难题,本文设计并实现了一个基于边缘计算的智能停车系统(XDSmart Park)。本系
高镍正极材料LiNi0.8Co0.1Mn0.1O2(NCM811)因具有放电比容量高、能量密度高、操作电压范围广等特点而被广泛应用。然而,容量衰减快和倍率性能差限制了其在锂离子电池中的应用。本文采用两步溶胶-凝胶法成功制备了纯相NCM811。运用XRD和SEM系统地研究了煅烧温度、保温时间和配锂量对NCM811物相结构和微观形貌的影响。并运用多通道恒流充放电系统和电化学工作站对所合成的NCM811
目的:心血管疾病(CVD)是威胁全人类生命健康的重要因素之一,动脉粥样硬化(AS)是其主要病理生理学基础。内皮细胞损伤作为AS形成的始动环节,通过诱导血管慢性炎症反应促进CVD发生发展。金雀异黄素(GEN)具有抗AS效应,但作用机制尚未完全阐明。本研究旨在探究GEN对脂多糖(LPS)诱导的小鼠血管慢性炎症反应的影响及是否与调控miR-21表达有关。方法:1.高脂饮食喂养C57 BL/6小鼠联合腹腔