多示例学习算法及其应用研究

被引量 : 0次 | 上传用户:element_wq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类收集和存储数据能力的不断增长以及计算机运算能力的飞速发展,利用计算机来分析数据的要求越来越广泛和迫切,使得机器学习的重要性越来越显著。多示例学习是一种新的机器学习方法,近年来逐渐成为机器学习领域关注的一个研究热点。它有别于传统的有监督学习、无监督学习和近年来提出的半监督学习方法,被认为是一种新的学习框架。在多示例学习中,训练集由若干个具有标签的包组成,每个包含有若干个没有标签的示例。若一个包中至少有一个示例为正类,则该包被标记为正包;若一个包中所有示例都为负类,则该包被标记为负包。希望学习系统通过对训练包的学习,能够正确预测出新包的标签。由于它的训练样本的层次性表示结构,相较于平板式的单样本属性对表示,更能反映一些现实问题的逻辑结构,使得它在区分“粗标签”对象上具有独特的优势,已经得到广泛的应用,例如:药物活性分子预测,图像检索、分类和标注,文本分类,蛋白质家族预测,目录网页和链接推荐、计算机安全、计算机辅助医学诊断等领域。本文在分析了多示例学习算法国内外研究现状和目前仍存在问题的基础上,对多示例学习算法中依赖于单个示例、包特征的构造、包特征的降维、并行算法进行研究,提出了几个多示例学习算法,并把它们应用于图像检索和分类。主要研究成果如下:1、针对已有的多示例学习算法应用于图像检索时存在依赖于单个示例和耗时较长的缺陷,本章提出一个基于多示例学习和贝叶斯分类的图像检索方法(MIL-Bayesian)。首先,将每幅图像分割成多个区域,把图像看作多示例学习中的包,区域看作为包中的示例;其次,计算所有图像中每个区域的多样性密度(DD)函数值,提取出可能的正区域组成一个集合,使用高斯混合函数逼近估计正区域的类条件概率密度;接着,使用贝叶斯分类器为每幅图像计算一个相对于正类图像的后验概率,并根据后验概率值大小排序返回给用户;最后,经过几轮的用户相关反馈后,用户得到一组满意的图像。在Corel图像集上的实验表明,提出的方法具有好的检索精度和高的检索效率。2、针对多示例学习中构造包特征依赖于少数示例特征的缺陷和缩窄图像的低级特征表示与高级概念之间的语义鸿沟,本章利用密度聚类获得的簇分布信息和多示例学习框架在区分歧义性对象上的特点,提出一个基于区域特征密度聚类和多示例学习的图像分类方法(DCRF-MIL)。该方法首先将每个图像分割为多个区域,将所有区域组成一个集合,在这个区域集合上,使用密度聚类算法学习到区域特征的簇分布信息;其次,将图像看作包,区域看作包中的示例,基于区域特征的簇分布信息,将包映射为簇分布空间上的一个向量作为包的特征,使得包特征带有图像区域的语义信息;最后,使用支持向量机算法,在带有包特征的训练集上训练分类器,对测试图像进行分类。在Corel图像集和MUSK分子活性预测数据集上的实验表明,DCRF-MIL算法具有分类精度高和参数易于选择等特点。3、针对多示例学习中变换示例空间后获得的包特征的高维问题,本章提出一个基于多个子空间集成的多示例学习算法(MSEMIL),和它的并行实现算法(P_MSEMIL)。该方法首先将多示例学习中的包,向所有示例组成的示例空间映射得到一个包特征;其次,通过融合bagging法选取训练样本子集和随机选取特征子集的方法,将训练集和测试集划分成多个子空间,在每个子空间上训练一个半监督子分类器;随后,通过集成策略合并多个子分类器的分类结果,得到一个多示例学习集成分类器。最后,在机群计算系统上,应用基于Java的分布式并行计算中间件ProActive,实现这个集成分类器的并行算法。在MUSK和Corel数据集上的实验表明,与其它同类算法相比,MSEMIL具有分类精度高、对标签噪声健壮的特点。实验还表明,P_MSEMIL具有小的计算耗时和较高的加速比等特点。
其他文献
随着现代制造业的发展,设计在产品的制造过程中占的地位越来越重要,而在设计过程中,最重要的阶段就是产品的概念设计。有关调查显示概念设计阶段决定了产品后期80%的性能和成
成都具有大面积的绿色视野、独特的休闲文化气息等美学价值,并具有构建田园意象与自然文化统一的打造潜力。本文主要探讨世界现代田园城市建设和绿道规划的内涵和特点,结合世
磷化在化学转化膜处理技术中应用最为广泛,是提升钢铁耐蚀性、延长其使用寿命最直接且最有效的手段。锌系、锰系和铁系磷化是最常见的磷化膜类型,其中,锰系磷化膜的耐腐蚀保
随着计算机应用的不断深入,人们对于基于语音的人机交互需求越来越多,但由于语音存在噪音等干扰因素的影响,导致其处理性能往往不太理想,如何提高语音处理的性能及其识别率是
太阳能集热发电是新能源利用的一种主要形式,其中碟式太阳能集热发电效率高、开发潜力大。碟式太阳能集热发电是点聚焦集热发电设备,其在工作时需要与设置配套的碟式太阳能自
品牌是市场不断发展的产物,最早应用于企业之间的竞争。随着我国教育体制的改革以及市场经济体制的发展,品牌的相关概念也被逐步引入到高等教育领域当中来。高职教育作为高等
Cr20Ni80合金是电热合金中镍铬系的典型代表,它具有高温强度高、电阻率的均一性和稳定性好以及维护方便等诸多优点,被广泛应用于工业及民用行业的各种加热设备。但是目前国内
根据非线性动力学理论和铁磁谐振的特性,提出一种新的抑制铁磁谐振的概念——用同步脉冲控制理论使过电压系统与正常工作的系统同步。通过Matlab软件仿真计算,表明该方法能有
弗吉尼亚·伍尔夫是与法国的马塞尔·普鲁斯特、英国的詹姆斯·乔伊斯齐名的世界意识流文学大师,在英国乃至世界文学史上占据不可替代的地位。从叙事学的角度讲,伍尔夫的意识
地铁线路建成后,由于机电设备监控项目子系统多、跨子系统联动功能复杂、调试时间不充裕、多专业协调难度大等原因,往往难以按时开通。即使线路已经运营,仍会有部分功能需陆续测