论文部分内容阅读
当前多维数据呈现出爆发式增长的态势,多重假设检验作为进行大规模统计推断的主要工具成为研究的一个热点。在多重假设检验中,控制好整个检验的错误率是成败的关键。错误发现率的概念由Benjamini和Hochberg于1995年首先提出,并给出了最初的控制方法。相较于原有族错误率方法,错误发现率方法提高了检验的功效,为控制多重假设检验中的虚假发现提供了新的依据,在错误控制和检验功效间找到了新的平衡。此后,错误发现率方法的发展大致可以分为两个不同方向:一是对错误发现率控制方法的改进;二是对错误发现率方法应用领域的拓展。本文通过同行业股票选择和汽车销售企业偷漏税识别两个案例,将错误发现率方法分别应用于股票选择和数据挖掘两个领域,拓展了该方法的应用领域。在同行业股票选择案例中,本文提出一种基于错误发现率的短期同行业股票选择方法,通过构造假设检验,将股票选择问题转化为多重假设检验问题,从而将错误发现率方法应用于股票选择问题。该方法能够同时考察一行业内全部股票收益率表现,提高同一行业内股票选择的效率。通过对实例进行分析表明,运用错误发现率方法所选股票的短期收益高于同时期行业平均水平。进一步与通过t检验方法所选股票进行对比后发现,运用错误发现率方法所选股票的短期收益同样具有优势。在汽车销售企业偷漏税识别案例中,以往人们倾向于找出尽可能多的对分类结果具有影响能力的各种指标,并将所获取的全部数据导入数据挖掘模型中,而这样可能会导致以下问题的出现:冗余数据的导入降低了模型的效率,模型的复杂化降低了模型的可理解性,数据导入模型前需要进行大量数据预处理工作。因而,本文将错误发现率方法应用于数据挖掘领域,在数据预处理阶段对模型输入指标进行筛选,以提高模型效率、降低模型复杂程度、减少数据预处理工作。通过对案例进行分析表明,运用错误发现率方法对模型输入指标进行筛选,能够有效提高模型识别准确率,降低模型复杂程度,达到预期目的。通过对上述两个案例的研究,本文成功的将错误发现率方法应用于股票选择和数据挖掘两个热门领域,验证了错误发现率方法应用于以上两个领域的可行性和有效性,实现了错误发现率方法的应用领域的拓展。