关于机器学习的试验设计初探

来源 :南开大学 | 被引量 : 0次 | 上传用户:aspxcss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习是一个从数据中学习规则、识别模式的过程。机器学习是人工智能的产物,在金融、工业、商业、互联网以及航天等各个领域均发挥着重要的作用。在机器学习中,数据需要分为训练集和检测集,传统的做法是随机抽样选取训练集,将剩余的数据作为检测集。但是这种做法太过简单,所产生的训练集有可能会带来偏差。此外,在一些领域,获取数据的响应值是困难或者昂贵的,因此人们需要通过选取尽量少的训练样本,来得到较好的结果。为了达到这些目的,我们可以将试验设计,应用于机器学习训练集的选取。我们认为,只要你的试验设计的恰当合适,那么机器学习的效率也会更好。本文通过两个机器学习算法的例子,利用模拟数据,将序贯设计和近似正交拉丁超立方体设计等运用于机器学习的过程,结果表明,学习算法的效率和精确度都得到了提高。第一个例子,我们将序贯设计运用于分类问题的训练集选取,运用贝叶斯logit极大似然算法计算分类问题的分类边界,模拟结果表明,只用一小部分的数据,便可以估计得到使用全部数据估计的分类边界。这有助于降低成本,在实际应用中有重要的意义。第二个例子,我们将分层性和正交性引入利用Lasso做变量选择的过程。我们使用随机拉丁超立方体设计,近似正交拉丁超立方体设计、正交极大极小拉丁超立方体设计以及均匀设计来形成抽样策略,然后利用修正的最小角回归算法,来求解Lasso估计值。通过模拟,我们发现,分层性有助于减小估计的方差,而正交性能够使得变量选择更为精确。
其他文献
本文主要研究基于静电纳米电子机械系统(NEMS)的一类非线性椭圆型方程的边值问题,首先,我们将用上下解法研究问题解的存在性并且将讨论极小解的一些性质。然后,我们将用变分法证
在这篇文章中,我们将首先讨论下面这个周期离散非线性薛定谔方程的离散孤立子:   iψn=-△ψn+εnψn-γxnfn(ψn),n∈Z,其中这里   △ψn=ψn+a+ψn-1-2ψn是一维空间中的
离散细分法是构造曲线曲面的一类重要方法,是函数逼近理论及其应用研究中的重要课题,其处理过程比较简单,从离散到离散,提供了一种快速生成曲线、曲面的方法。但是由于细分的收敛
本篇论文讨论非线性椭圆偏微分方程多解问题的数值解法,其中模型问题的微分方程项和边界项都带有非线性项。由于方程的非线性性和解的多重性及其不稳定性,本文采用局部极小极大
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
随着经济全球化的快速发展,我们与国外之间的联系越发密切,学好英语已成为大势所趋.在中国,大部分地区的学校已经把英语列入小学三年级的课程,甚至有的地区在幼儿园的课程中
期刊
区域分解方法是求解大规模问题最有效和最有前途的方法之一。其中,带约束的区域分解方法(BDDC)在2003年提出,现在成为了最有效的区域分解方法之一并且广泛的用于求解对称正定的
解的凸性是偏微分方程和几何分析研究中的一个重要课题,其主要研究方法分为宏观方法和微观方法.对于一般椭圆和抛物方程,我们自然地想研究其解的相关凸性,例如解的凸性和解的水平
二十世纪六十年代发展起来的计算机辅助几何设计(Computer Aided Geometric Design,CAGD)技术,是一门研究几何数据的计算机表示、分析、处理等相关内容的学科,在计算机辅助设计