基于支持向量数据描述的消歧义多示例学习算法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:zyhhappy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着机器学习理论研究的深入,很多传统领域借用机器学习来提高研究水平,应用机器学习方法层出不穷,特别是基于机器学习的数据分析方法已成为解决复杂问题的关键技术之一。因此,当前机器学习的角色也逐渐发生了改变,由单一方向向多方向发展,大量研究者根据其特点相继提出了一些新方法和新思想(如多示例学习),并实现了从理论分析到实际应用的转变。多示例学习问题则成为了机器学习理论中一个全新理论分支。在多示例学习中,训练样本是由包含多个示例包的组成,包是有概念标记的,示例是没有标记的。训练样本的歧义性比较特殊,使得多示例学习模型与传统的机器学习模型有很大的差别。由于多示例学习本身独特的性质和良好的应用前景,被称为是与监督学习、非监督学习和强化学习并列的第四种机器学习框架,引起国内外研究者的极大关注。本文对基于支持向量数据描述和多示例学习进行研究,提出了两种基于SVDD的消歧义多示例学习算法:MIL-NSVDD_I算法和MIL-NSVDD_B算法。论文主要工作有以下三个个方面。首先,论文研究了在支持向量机及最小包围球理论基础上发展起来的支持向量数据描述算法,包括硬间隔、软间隔及带负类样本的SVDD方法。并针对核参数和惩罚参数对SVDD算法的影响进行分析与讨论。其次,论文提出了一种消除包中示例歧义性的方法,将多示例数据集转化为单示例数据集。将正包中的示例按照预测精度进行降序排列,选择前m+个最大预测精度值的示例,参数m+为能够从每个包中选出一个示例的最小值,被选出的示例即为消除歧义后的正示例集合。对于负包中筛选代表性示例的方法,我们把负包中的所有示例与选出的消歧义后的正示例集合的距离按升序排列,选择前m-个距离最小的示例,参数m-为能够从每个包中至少选出一个示例的最小值,选出的这部分示例为负包中的代表性示例。最后,本文采用两种特征映射,基于示例等级的特征映射和基于包等级的特征映射,将多示例学习问题转化成标准的机器学习问题,用带负类的SVDD方法对映射后的单示例数据集进行学习,得到相应的分类器。论文在实验部分验证了本文算法的有效性,并与现有算法的分类精度进行对比分析。综上所述,论文提出的MIL-NSVDD_I算法和MIL-NSVDD_B算法是能够有效解决多示例学习问题的新算法,具有较强的理论和应用意义。
其他文献
学位
物联网被视为互联网的应用扩展,它将用户端延伸到了物品与物品之间,使它们可以进行信息交换和通信。随着物联网技术的成熟和应用创新,物联网技术在生活和工业领域得到越来越多的
智能工厂系统为半导体制造提供了完整的工厂自动化解决方案。随着现代工业的发展,繁多的自动化生产流程、越来越复杂的控制、工厂越来越频繁的技术升级、规模改造和流程更改,需
传感器节点因体积小成本低得到了广泛的应用,然而传感器数据的不确定性无处不在,传统的数据库系统对这类数据的查询处理受到局限,因而研究针对不确定数据的查询系统显得极为重要
社会的发展进入了网络信息时代,各种形式的数据海量产生,在这些数据的背后隐藏着许多重要的信息,如何从这些数据中找出某种规律,发现有用信息,越来越受到关注。本文在认真分析研究
近年来,电力系统迅速发展,传统的变电站不支持IEC61850标准,来自不同厂商的智能电子设备无法很好的实现互操作和集成;同时,电力设备的故障往往会影响到整个系统的安全运行,导致维修
互联网技术的发展与互联网产品的应用是信息时代最重要的特征。数据包分类技术由于可以广泛的应用于诸多网络应用中,近年来,被不断的开发与改进。在大量学者的研究下,该技术取得
掌纹识别作为一种新兴的生物识别技术,具有较好的市场前景,近年来得到了广泛的关注与研究,已经形成了比较成熟的理论,现在开始走出实验室,进入应用阶段。掌纹的识别现在主要采用顺
随着信息技术的迅猛发展,软件产业迎来了新的机遇,然而软件产品的恶意盗版、非法使用正日益严峻,软件版权保护成为人们亟待解决的问题。软件水印技术是近年来一种很有前景的软件
随着信息技术的快速发展,特别是计算机技术以及网络技术的不断完善,办公自动化技术得到了更好的发展。办公自动化系统能够加快各种信息的流通,提高企事业的办公效率,降低办公成本