论文部分内容阅读
在数据挖掘中应用抽样技术,可以显著提高数据挖掘任务的效率。通过采用不同的抽样方法,使得数据挖掘算法可以针对比原始数据集小得多的样本数据集进行分析,从而大幅度提高性能。随之而来的问题就是,由于采用了抽样方法,在大幅提高性能的同时,对分析的精确性就会产生影响。如何选取合适的反映总体数据水平的样本成为数据挖掘中的关键问题。传统意义上的抽样大多采用单一的抽样方法,进行单一抽样,抽取的样本在一定程度上具有局限性。本文对传统抽样方法和样本容量的选取进行总结,对传统的分层抽样思想进行改进,提出了一种新的基于数据挖掘的启