论文部分内容阅读
分类是机器学习和数据挖掘领域的一项重要研究内容。在分类问题中,通常需要建立一个由已知类标号的样本组成的训练集,然后根据训练集中的样本对新的未知类标号的样本进行分类,即对每个未知样本预测其类标号。局部学习是机器学习领域的一个重要方法,它通过对训练集中的部分样本进行学习,建立某个局部区域的专有学习模型。局部分类就是利用局部学习来解决分类问题的方法,由于局部分类模型是根据与待测样本点非常相关的一个局部区域的样本点建立的,因此更能反映待测样本的信息,可以对其进行准确分类。k-最近邻法(kNN)作为局部分类的一个具体化算法,由于其简单、易理解、易实现等特点,在机器学习、模式识别和数据挖掘等领域有着广泛的研究和应用。目前对局部分类的研究,主要是在kNN的基础上进行的,缺乏对局部分类进行系统的研究。本文以贝叶斯决策理论为基础,以局部概率模型为核心思想,对局部分类进行深入研究和探讨,提出了局部分类方法的一般形式,并据此实现局部分类的概率输出。此外,针对局部分类中的两个关键问题,即局部区域的选择和局部模型的选择问题,本文做了一系列深入的研究和尝试,并从理论上分析了局部区域选择和局部模型选择之间的关系,为局部区域选择和局部模型选择提供了新的思路和指导方向。最后,本文将局部分类方法应用于基于静息脑电(EEG)的普适身份识别系统,得到了较好的识别效果。本文的主要工作和创新点如下:1.局部分类中的局部模型选择问题在kNN中表现为邻域信息组织问题,针对kNN分类中邻域信息组织问题,我们以贝叶斯理论为基础提出了一个基于局部分布的kNN分类算法(Local Distribution Based kNN,LD-kNN)。该算法为待测样本构建一个邻域,并利用邻域内的样本对该邻域的局部分布进行估计,然后利用估计出来的局部分布信息通过贝叶斯定理计算待测样本属于每个类的隶属概率,将待测样本分到具有最大隶属概率的类中。LD-kNN通过局部分布信息综合考虑了邻域中的样本数量,位置,距离等信息,是对现有kNN方法的一种改进和完善。我们通过大量的真实数据集和模拟数据集上的实验研究了LD-kNN方法的性质,实验结果表明与很多先进的分类算法相比,在分类效果、效率、维度鲁棒性和问题鲁棒性上,LD-kNN都有良好的性质。2.在局部分布的估计方面,我们重新定义局部概率分布,提出了一种基于局部概率模型(Local Probabilistic Model,LPM)的概率密度估计方法(LPM-based Density Estimation,LPM-DE)。由于现实中真实概率分布的复杂性,一般的参数概率模型经常难以有效模拟出真实的分布,而非参数概率模型通常需要更多的样本支持,从而导致建模效率较低。LPM-DE是对参数概率模型和非参数概率模型的一个折中,该方法在全局上估计一个非参数模型,而在局部估计一个参数模型,通过选择不同大小的局部区域和该局部区域上的局部概率模型,能有效克服参数模型和非参数模型的缺陷,对全局概率密度进行有效的估计。我们在模拟数据集上的一系列实验验证了LPM-DE的有效性。3.我们以贝叶斯决策理论为基础,用局部概率模型解决贝叶斯分类中的概率估计问题,提出了基于概率模型的贝叶斯分类方法(LPM-based Bayesian Classification,LPM-BC)。LPM-BC是局部分类方法的一般形式,通过选择不同的局部区域及其对应的局部概率模型,LPM-BC可以具体化为各种局部分类算法,传统的kNN算法和LD-kNN都可以看作是该局部分类方法的一个具体化形式。LPM-BC将局部分类概率化,可以输出样本对各个类的隶属概率,便于进行后续概率推理,这是LPM-BC相对于只输出类标号的分类算法的一个显著优势。另外,我们对LPM-BC的局部区域的选择和局部概率模型的选择进行了一系列分析和探讨,总结出了局部分类中局部区域选择和局部概率模型选择之间的关系。我们在一系列模拟和真实数据集上的实验验证了,当选择合适的局部区域及其对应的局部概率模型时,该局部分类方法LPM-BC具有良好的分类效果。4.将局部分类方法应用于基于静息脑电(Electroencephalography,EEG)的生物识别领域。我们设计并实现了一个基于EEG的普适身份识别系统。该系统实时接收并分析受试者的EEG信号,提取相关的特征,然后用局部分类方法根据所提取的特征建立合适的局部概率模型对受试者进行分类识别。在实验中,我们实现局部分类的一个具体化算法局部概率中心(Local Probability Centers,LPC),并利用LPC对受试者的EEG信号进行分类识别,与其他很多先进的全局分类算法相比局部分类算法LPC能达到好的识别效果。本文通过对局部分类方法的深入研究,以贝叶斯决策理论为基础,将局部分类概率化,提出了局部分类的一般方法,该方法可以将分类结果以概率的形式输出,通过选择不同的参数该方法可以具体化为现有的大多分类算法,具有重要的理论价值和广泛的应用背景。