基于机器学习的机器学习程序实现正确性分析

来源 :南京大学 | 被引量 : 0次 | 上传用户:kangyh123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今社会,机器学习技术得到了广泛的应用,并且业已对我们的的生活产生了重大的影响。同其他所有的软件一样,机器学习软件中也会存在错误。那些被广泛应用的机器学习软件一旦出现了错误,很可能造成严重的经济财产损失乃至人身安全危害。正确地实现机器学习算法,高效地发现机器学习算法中的错误因而具有重要意义。然而,在机器学习算法的实现中发现错误是一个非常困难的任务。由于机器学习算法的输出是一个按照从数据上学习出的规律而运行的模型,开发者通常难以给出机器学习算法的预期输出,从而难以利用传统的软件测试方法来发现机器学习算法实现中的错误。该问题被也称为无预期输出问题。尽管有研究者提出了基于多版本测试、蜕变测试等技术的方法,但是由于这些方法的局限性,在机器学习算法实现中发现错误的过程仍然严重依赖于编程者经验或者需要付出大量的额外开发成本。针对机器学习算法实现的无预期输出问题,本文创新性地提出了基于机器学习方法的解决方案,并取得以下进展:第一,我们提出一种新颖且通用的机器学习方法(IBM)~2,以解决机器学习算法实现的无预期输出问题。我们的方法创新之处在于其可以从不同类型的学习算法的正确实现中学习,描述出参考的所有正确实现在目标数据集上的普遍行为规律,作为待测学习算法实现的期望输出的近似。我们从算法实现在不同数据集上输出的模型的预测结果中提取行为特征,并且根据这个特征学习出参考的所有正确实现都符合的行为规范。不符合这个行为规范的算法实现则被我们的方法判别为有错误的。我们在基于广为人知并久经测试的机器学习算法实现库WEKA生成的机器学习算法实现数据集上进行了实验,并同多组对比方法进行了比较。实验结果显示了我们提出的方法的有效性。第二,针对(IBM)~2方法在高维行为特征空间中运行时空开销过大的问题,我们提出一种基于行为元特征的行为特征选择方法,可以从原始的高维行为特征空间中选出一个相关性强而冗余度低的子空间,从而降低学习出判别器和利用判别器进行判断的开销。我们的方法利用了学习算法模型往往对相邻样本产生相近预测结果的性质,用每个维度对应的元特征来估计行为特征的冗余性,并在原始空间中用简单的单类线性模型估计每个维度同标签的相关性。我们在提出的机器学习算法实现数据集上验证了我们的方法。相对于对比方法,我们的方法更加有效。
其他文献
随着科学技术的发展,生物特征在人们的生活中扮演着越来越重要的角色,由于其唯一性、独特性、随机性等优势,因此被广泛用于数字证书、信息加密和密钥保护等领域。生物特征的
高空间分辨率的遥感影像中有着十分丰富的地物信息,目前,如何快速、准确的从高空间分辨率遥感影像中提取出人们所需的地物信息,是遥感技术应用研究的热点之一。由于大部分城市的构成都具备一定的复杂性,因此,城市建筑物信息的提取便成为了高空间分辨率遥感影像处理的难点和热点。建筑物信息对于城市规划与管理、城市建设等相关工作有着十分重要的作用,是一种基础地理信息数据。高空间分辨率遥感影像建筑物提取技术在精度和效率
随着高技术产业的不断发展,高技术产业集聚对经济增长影响的研究成为了经济学研究的热点问题,高技术产业作为技术密集型产业,具有高投入、高附加值、高渗透性和带动性、高创
汽车车身大部分金属零部件为钣金件,因此,冲压自动化将直接关系到汽车业的发展。传统依靠人力操作的冲压生产方式存在着工件质量稳定性低、效率低、劳动强度高等问题。以特定异形边缘平面钢板料垛冲压线拆垛上料为背景,提出了自动化冲压生产过程中拆垛上料部分的设计方案与实现方法。通过在生产线中设计拆垛、取料、运输、双料检测、视觉对中上料等模块,来实现冲压生产线拆垛上料的全自动化。主要内容如下:提出了自动化冲压生产
随着人类步入信息时代,通信技术已经完全与人们的生活、工作及社会各方面融合在一起。在这个社会经济快速发展以及科学技术不断创新进步的时代,人们面临着日益巨大的信息安全隐患,这促使着通信技术的保密化研究进入飞速发展阶段。混沌系统以其具有的天然优良特性成为保密通信技术的宠儿,混沌调制通信技术随之诞生。面对未来巨大的业务流量及海量的设备接入,提高混沌调制技术的频谱利用率以满足日益稀缺的频谱资源成为亟待解决的
一国的产业结构决定了其自身的经济增长模式,合理的产业结构是一国经济持续平稳增长的基础。现阶段,我国产业结构存在自主创新能力差、制造业发展不充分、服务业结构不合理及产业间互动不足等问题。在产业结构升级过程中,中央和地方政府通过产业用地政策掌握着主导权。鉴于此,本文首先梳理了中央和地方政府的行为动机,发现在高额财政支出和官员晋升的双重压力下,地方政府具有强烈的土地财政倾向:一方面,将土地以“招拍挂”形
近年来,随着高速铁路的不断进步和迅猛发展,铁路运行安全逐渐引起了人们的高度重视。在电气化铁路组成的重要部分中,接触网的工作状态好坏能够直接影响到铁路运行的安全。其中,接触线是直接和受电弓碳滑板进行接触,通过两者之间形成的接触力来随时保持接触线对受电弓的电流供给,保证行车过程中的安全。所以,经常检测受电弓与接触网间存在的接触压力对铁路机车的正常运行是具有重要意义的。当列车出车之前或者出行达到一定行程
三唑是一类非常重要的含氮杂环化合物,被广泛应用于功能材料、燃料、农药领域,也可以作为配体、催化剂、诱导基团及卡宾前体应用于有机合成领域,基于其重要的应用价值,发展温
伴随全球经济的迅猛发展,知识经济逐渐成为当今时代的特征,各国间经济领域的竞争,逐渐演变为以知识水平和科技进步为核心的竞争,创新开始成为评价企业变革速度和社会进步水平的重要标尺。以我国为例,近年来,正居于经济变革和产业升级的重要阶段,综合国力显著提高,国家正在大力推动创新产业发展,以全民创业活化经济,以全民创新唤醒生产活力,让“中国智造”成为国际经济舞台上的中国印记和象征。而企业是国家推进战略部署中
我国对高校智库的建设和发展是高度重视的,面对日益复杂的国际环境和国家发展中遇到的各种难题,需要高校智库建言献策。为了更好地进行资源整合与共享,各行业相继出现建设不同类型智库现象,各种智库联盟相继出现。目前,我国高校智库联盟组织数量不多并且都在发展的初期阶段,在知识服务这一块并未体现出自身的影响力。基于此,本文首先对高校智库、高校智库联盟以及知识服务等相关概念进行阐述和说明,同时介绍了本文研究需要的