【摘 要】
:
本文主要包含以下两方面内容:(1)对一种区间值SVM分类模型的参数选取进行优化;(2)提出一种对区间型数据进行LIME解释的数据预处理方法。支持向量机(SVM)作为应用最广泛的分类算法之一,以其严密的数学逻辑在精确型数据集中有着良好的分类性能。对于区间型数据集,通常对区间型数据进行处理使其转换为精确型数据再进行SVM训练。传统方法是用区间的几何中心代表该区间,而Utkin等人则是通过考虑区间型数据
论文部分内容阅读
本文主要包含以下两方面内容:(1)对一种区间值SVM分类模型的参数选取进行优化;(2)提出一种对区间型数据进行LIME解释的数据预处理方法。支持向量机(SVM)作为应用最广泛的分类算法之一,以其严密的数学逻辑在精确型数据集中有着良好的分类性能。对于区间型数据集,通常对区间型数据进行处理使其转换为精确型数据再进行SVM训练。传统方法是用区间的几何中心代表该区间,而Utkin等人则是通过考虑区间型数据的期望风险测度区间提出一种区间值SVM,直接将数据的区间信息引入训练过程,从而使得到的SVM分类模型地性能更加优异。然而,由于该算法的高复杂度导致直接进行参数选取优化存在一定的困难,使得模型性能未必能达到最优。针对这种情况,本文中通过结合粒子群优化算法以及传统方法,提出一种方法对Utkin等人算法的参数选取进行优化。通过在MATLAB平台上对人工合成数据以及8组UCI数据集的数值实验可以看出,与传统方法以及Utkin等人的方法相比较,本文所提的方法具有更加优良的分类性能。同时,本文所提参数优化方法在区间值SVM中的参数寻优时间也远小于Utkin等人所使用的网格搜索优化方法。机器学习被广泛应用,是科学和技术的许多最新进展的核心。大多机器学习模型仍然是黑匣子,了解预测背后的原因对于评估模型的信任度变得非常重要。通常,可以通过拟合代理模型来对黑箱模型的预测结果进行解释。但对于结构复杂的黑箱机器学习模型,拟合令人满意的全局代理模型较为困难,一般考虑用局部代理模型来拟合黑箱模型的单个预测,从而只对该单个预测进行解释。在本文中使用局部代理模型方法中的LIME方法进行解释,LIME方法通过在预测结果的周围建立局部可解释模型为单个预测提供解释。然而,LIME方法本身也是对精确型数据进行解释,因此本文中提出新的数据处理方式可以将需要解释的区间型实例转换为精确型实例,从而可以直接使用LIME方法对预测结果进行解释。通过在Python平台的数值实验可以看出,LIME方法对经过数据处理的4组UCI数据都可以给出直观有效、令人信服的解释。
其他文献
伴随着“智能高铁”时代来临,高铁列车及旅客对车内无线通信网络提出了越来越高的要求,传统GSM-R铁路专网已无法满足高带宽、低时延的多样化业务通信需求,因此向下一代铁路通
所谓的延迟退休,是指国家根据社会年龄结构、就业市场压力和养老保险基金收支的变化状况对退休年龄进行上调的政策。随着我国人口数量増速降低、人口老龄化也带来了一系列的社会问题,使得日益上升的养老金需求与并不完善的养老保险制度之间的矛盾愈发尖锐。除此以外,社会保障制度转轨带来下了大量债务和欠账,会严重影响养老金的支付能力。根据由中国社会科学院世界社保研究中心撰写发布的《中国养老金精算报告2018-2022
随着科技的迅速发展,各个领域的情报信息、研究成果产量迅速增长,而如何快速找到符合科技人员兴趣的信息成了亟待解决的问题。信息过载的现象加速了推荐系统的研究。情报推送技术旨在联系科技人员与科技文献、技术报告、新闻等情报信息库,为科技人员及时准确地推送符合其需要的情报信息。科技文献和技术报告等是科技人员了解当前技术前沿、学术动态的重要途径之一。针对仅从用户评分信息单一角度的推荐系统存在的冷启动问题,本文
在文献数据库中会存在许多相关性极低的论文,这些文章署名相同,但实际并不是同一个人,称之为同名问题,这严重影响了检索的质量。此外,同一个作者可能超过一个的名称变体,称之为共指问题,例如姓名缩写不同、工作机构调动,都会导致不完整的查询输出。这些都属于同名消歧问题。同名消歧的本质是一种利用知识库进行命名实体消歧,即将文本中的实体指称映射到知识库中对应字段的方法。本文中的命名实体识别特指科技文献作者识别,
验证码(Completely Automated Public Turing Test to Tell Computers and Humans Apart)是一种保护计算机免受恶意程序侵扰的有效机制。其工作原理,是利用对于机器而言难以解决的AI问题,来区别合法的人类用户以及非法的恶意程序。以目前最广泛使用的文本验证码以及图形验证码为例,其背后的AI问题分别是字符识别以及目标识别问题。随着大数据时
图像识别作为计算机视觉发展史上最基本的问题之一,已经得到了广泛的研究。近几年,由于数据规模的不断增长,研究目标也发生了巨大变化。本文研究了最新并最具挑战性的目标识别任务之一,细粒度图像分类(Fine-Grained Visual Classification,FGVC)。细粒度图像分类问题是对子类进行识别。与以Image Net图像分类为代表的的通用图像识别(General Images)任务相比
企业层面上的劳动收入份额变动机制在于,当企业面临生产效率冲击时,增加一单位增加值会如何传递到职工薪酬。本文基于Gouin-Bonenfant(2018)的基准模型,结合一个纳什议价的保留工资决定过程,来构建一个中性技术变动的企业劳动力要素投入动态决策模型,借此来探析企业劳动收入份额的变动机制。增加值传递到职工薪酬的过程主要存在两条路径,一是由于劳动力的在职匹配(on the job search)
网络攻击行为是传统攻击行为的衍生形式,是基于互联网发展出现的一种新的伤害形式,网络攻击会给受者的身心以及社会功能造成严重影响。而特质愤怒是与攻击行为密切相关的一种
如今城市群经济在我国经济版图中扮演着越来越重要的角色,已然成为创新扩散的主要载体和经济增长的新引擎,因而以城市群为研究对象是区域经济研究的主导方向。而生产性服务业作为高技术含量的知识密集型产业,其分布与结构的合理性对城市及城市群创新竞争力的获得有着重要意义。本文在梳理了产业集聚、生产性服务业、城市创新等相关文献后,从产业结构动态外部性理论视角切入,以城市群作为刻画产业集聚水平的空间尺度,将集聚分为
习近平总书记关于青年发展的重要性作了特别指示,他强调“青年兴则国兴,青年强则国强”、“青年一代有理想、有本领、有担当,国家就有前途,民族就有希望”。这充分体现了党中央和习近平总书记对青年一代的高度重视、亲切关怀和殷切期望。高中生作为知识型青年的雏形,是国家人才资源的后备力量。他们的社会责任意识不仅关乎个人的前途命运,更关乎祖国未来的发展。现实中,高中生正处于价值观形成的关键期,判断是非的能力比较差