论文部分内容阅读
分类在数据挖掘中是一项非常重要的任务,目前在商业领域得到广泛应用。分类的目的是根据数据集的特点构造一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。时间效率、鲁棒性、精确性是分类算法研究的重要内容。模拟退火算法至今已在很多优化问题研究中取得了成功,但是关于将模拟退火算法应用于分类的研究却很少。在对模拟退火算法研究的基础上,本文深入探讨将该算法用于分类。对于要分类的数据,有n个特征属性和1个决策属性,将n个特征属性视为n维,则要分类的每个数据就是n维空间中的一个点。受支持向量域描述算法的启发,对要分类数据的每一类别,只需在n维空间中找到一个最小的超球或者超椭球作为分类器即可,将每一类数据用超球或超椭球来界定,数据空间由若干个超球或超椭球组成。数据集有几类,实验最终结果就找到几个超球或者超椭球实现数据集的分类。本文用模拟退火算法找到界定每类数据的合适的超球和超椭球,并通过几个数据集比较了这两种分类器的结果。实验结果表明,用超椭球作为分类器界定数据的效果优于超球,并且都达到了预期的效果。最后,针对实验中出现的问题与存在的缺陷,提出了该工作下一步的研究方向。