论文部分内容阅读
机器学习是一个从数据中学习规则、识别模式的过程。机器学习是人工智能的产物,在金融、工业、商业、互联网以及航天等各个领域均发挥着重要的作用。在机器学习中,数据需要分为训练集和检测集,传统的做法是随机抽样选取训练集,将剩余的数据作为检测集。但是这种做法太过简单,所产生的训练集有可能会带来偏差。此外,在一些领域,获取数据的响应值是困难或者昂贵的,因此人们需要通过选取尽量少的训练样本,来得到较好的结果。为了达到这些目的,我们可以将试验设计,应用于机器学习训练集的选取。我们认为,只要你的试验设计的恰当合适,那么机器学习的效率也会更好。本文通过两个机器学习算法的例子,利用模拟数据,将序贯设计和近似正交拉丁超立方体设计等运用于机器学习的过程,结果表明,学习算法的效率和精确度都得到了提高。第一个例子,我们将序贯设计运用于分类问题的训练集选取,运用贝叶斯logit极大似然算法计算分类问题的分类边界,模拟结果表明,只用一小部分的数据,便可以估计得到使用全部数据估计的分类边界。这有助于降低成本,在实际应用中有重要的意义。第二个例子,我们将分层性和正交性引入利用Lasso做变量选择的过程。我们使用随机拉丁超立方体设计,近似正交拉丁超立方体设计、正交极大极小拉丁超立方体设计以及均匀设计来形成抽样策略,然后利用修正的最小角回归算法,来求解Lasso估计值。通过模拟,我们发现,分层性有助于减小估计的方差,而正交性能够使得变量选择更为精确。