基于多示例分类的特征加权和距离准则学习问题研究

来源 :太原理工大学 | 被引量 : 1次 | 上传用户:sophia_hou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器学习中,多示例学习是一个研究热点,是第4种机器学习框架,目前多应用于自然场景分类、网络目录页面推荐、计算机安全等方面。在多示例学习的研究中,数据包中特征数量较多的问题是研究的难点之一,且在数据包中还存在着一定数量的与研究无关的特征,这些因素会提高对未知数据包标签预测的复杂度,影响预测结果。因此,对数据集进行预处理,提高与标签预测相关的特征的权值,对减少特征数量较多和无关特征干扰的负面影响是很有必要的。性能较好的分类器对降低标签预测误差起到了促进作用,其中使用较多的是基于最小或最大Hausdorff距离的近邻分类器。在运算时最小和最大Hausdorff距离都存在一定的不足,但这两种距离可以进行互相弥补。因此,本文算法在预测标签时使用融合了这两种距离的分类器,不仅可提高分类器的性能,还能降低标签预测误差。本文围绕数据集的特征加权和Hausdorff距离融合的问题展开相应的研究,具体为提出了一种改进的特征加权Simba算法和一种基于混合Hausdorff距离的集成Citation-KNN分类器,主要工作内容概括如下:第一,针对数据集的特征加权,本文提出了改进的Simba算法来提高与标签预测相关性较高的特征的权值。在经典的Simba算法中,一般使用欧几里得距离进行计算,但该方法仅适用于计算点与点之间的距离。针对其缺点,本文使用最小Hausdorff距离进行计算,以拓展算法的应用范围,减小异常值对算法的影响,降低对未知数据包的测试误差和预测的复杂度。第二,针对Hausdorff距离的融合问题,本文将使用Ada Boost算法,线性组合基于最小和最大Hausdorff距离的Citation-KNN分类器后生成基于混合Hausdorff距离的集成分类器。实验测试证明本算法不仅融合了最小和最大Hausdorff距离,将这两种距离的不足进行了互补,而且提升了分类器的性能,较好地降低了标签预测的误差。本文在降低预测未知数据包标签的复杂度和误差方面,将经过改进Simba算法特征加权后的数据集使用基于混合Hausdorff距离的集成分类器去学习,该方法经过相应的测试证明其有效性,在降低复杂度和预测误差方面具有一定的价值。
其他文献
电动汽车到电网技术(以下简称V2G)是一种低碳环保的新型电网技术,然而国内对于V2G技术的研究尚处于起步阶段,国外已经有了许多前沿研究。因此,该领域的科技文本的翻译研究十分重要。该实践报告以《电动汽车到电网技术:超越电动汽车的社会技术转型》一书为翻译对象,笔者选取该书的第三章:V2G的技术挑战、第四章:V2G的经济和商业挑战作为翻译实践的材料。基于卡瑟琳·莱斯的文本类型理论,笔者完成了此次翻译实践
目的:肝硬化腹水合并2型糖尿病(T2DM)患者越来越多,但目前2型糖尿病及空腹胰岛素水平对肝硬化腹水患者发生自发性腹膜炎(SBP)风险的影响的研究有限,本研究拟讨论失代偿期肝硬化腹水患者发生SBP的预测因素以及T2DM对患者发生SBP风险及转归的影响,重要的是,本研究将分析空腹胰岛素水平对失代偿期肝硬化腹水患者发生SBP及死亡风险进一步分层的潜在价值。方法:收集2013年1月~2018年10月期间
离散事件系统随着自动机在现代工程系统中的应用逐渐成为热门研究领域之一,在离散事件系统故障诊断基础上的可恢复性诊断及控制问题也是当前的研究热点。不论在理论研究上,还
近年来,随着我国经济进入了蓬勃发展的黄金期,民生领域的社保体系也获得了进一步的优化和健全。上海是我国最早进入老龄化社会的城市,也是我国老龄化程度最高的大型城市,2017
老人监控系统的立体视觉场景分析方法是利用现代计算机视觉技术和模式识别方法发展起来的新型信息应用,具有对实时监护系统下进行图像信息进行提取以及分析理解的能力,目前大
近年来,青藏高原东部地区出现了明显的草地退化情况,这不仅严重影响了该地区经济的可持续发展和青藏高原牧区牧户生活水平的提高,还将直接威胁到黄河中下游地区的生态安全。
农业科技推广工作对于提高科研成果转化率具有重要作用,是增加农业生产竞争力的关键。我国对农业科技创新驱动作用和技术推广力度极为重视,多次发布文件予以政策性支持。“十
独立研发和合作研发在企业实践中被普遍使用,但是企业往往会面临一个二元性的选择问题,为了能够实现创新收益的最大化,一些企业希望能够同时兼顾独立研发和合作研发。然而,现
扶贫工作历来是政府工作的重点,近年来国家出台了重大的扶贫战略和优惠政策。企业如何服务国家战略,通过产业扶贫和普惠金融,在实现社会效益的同时也实现自身的可持续发展?目
计算机技术和网络技术的快速发展使得信息共享变得更加容易,但是同时也使得信息变得更加不安全。信息安全关乎着国家和社会的稳定,保障自己国家的信息安全成为衡量综合国力的