基于贝叶斯决策理论的局部分类方法研究及其应用

来源 :兰州大学 | 被引量 : 9次 | 上传用户:guohaoyan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是机器学习和数据挖掘领域的一项重要研究内容。在分类问题中,通常需要建立一个由已知类标号的样本组成的训练集,然后根据训练集中的样本对新的未知类标号的样本进行分类,即对每个未知样本预测其类标号。局部学习是机器学习领域的一个重要方法,它通过对训练集中的部分样本进行学习,建立某个局部区域的专有学习模型。局部分类就是利用局部学习来解决分类问题的方法,由于局部分类模型是根据与待测样本点非常相关的一个局部区域的样本点建立的,因此更能反映待测样本的信息,可以对其进行准确分类。k-最近邻法(kNN)作为局部分类的一个具体化算法,由于其简单、易理解、易实现等特点,在机器学习、模式识别和数据挖掘等领域有着广泛的研究和应用。目前对局部分类的研究,主要是在kNN的基础上进行的,缺乏对局部分类进行系统的研究。本文以贝叶斯决策理论为基础,以局部概率模型为核心思想,对局部分类进行深入研究和探讨,提出了局部分类方法的一般形式,并据此实现局部分类的概率输出。此外,针对局部分类中的两个关键问题,即局部区域的选择和局部模型的选择问题,本文做了一系列深入的研究和尝试,并从理论上分析了局部区域选择和局部模型选择之间的关系,为局部区域选择和局部模型选择提供了新的思路和指导方向。最后,本文将局部分类方法应用于基于静息脑电(EEG)的普适身份识别系统,得到了较好的识别效果。本文的主要工作和创新点如下:1.局部分类中的局部模型选择问题在kNN中表现为邻域信息组织问题,针对kNN分类中邻域信息组织问题,我们以贝叶斯理论为基础提出了一个基于局部分布的kNN分类算法(Local Distribution Based kNN,LD-kNN)。该算法为待测样本构建一个邻域,并利用邻域内的样本对该邻域的局部分布进行估计,然后利用估计出来的局部分布信息通过贝叶斯定理计算待测样本属于每个类的隶属概率,将待测样本分到具有最大隶属概率的类中。LD-kNN通过局部分布信息综合考虑了邻域中的样本数量,位置,距离等信息,是对现有kNN方法的一种改进和完善。我们通过大量的真实数据集和模拟数据集上的实验研究了LD-kNN方法的性质,实验结果表明与很多先进的分类算法相比,在分类效果、效率、维度鲁棒性和问题鲁棒性上,LD-kNN都有良好的性质。2.在局部分布的估计方面,我们重新定义局部概率分布,提出了一种基于局部概率模型(Local Probabilistic Model,LPM)的概率密度估计方法(LPM-based Density Estimation,LPM-DE)。由于现实中真实概率分布的复杂性,一般的参数概率模型经常难以有效模拟出真实的分布,而非参数概率模型通常需要更多的样本支持,从而导致建模效率较低。LPM-DE是对参数概率模型和非参数概率模型的一个折中,该方法在全局上估计一个非参数模型,而在局部估计一个参数模型,通过选择不同大小的局部区域和该局部区域上的局部概率模型,能有效克服参数模型和非参数模型的缺陷,对全局概率密度进行有效的估计。我们在模拟数据集上的一系列实验验证了LPM-DE的有效性。3.我们以贝叶斯决策理论为基础,用局部概率模型解决贝叶斯分类中的概率估计问题,提出了基于概率模型的贝叶斯分类方法(LPM-based Bayesian Classification,LPM-BC)。LPM-BC是局部分类方法的一般形式,通过选择不同的局部区域及其对应的局部概率模型,LPM-BC可以具体化为各种局部分类算法,传统的kNN算法和LD-kNN都可以看作是该局部分类方法的一个具体化形式。LPM-BC将局部分类概率化,可以输出样本对各个类的隶属概率,便于进行后续概率推理,这是LPM-BC相对于只输出类标号的分类算法的一个显著优势。另外,我们对LPM-BC的局部区域的选择和局部概率模型的选择进行了一系列分析和探讨,总结出了局部分类中局部区域选择和局部概率模型选择之间的关系。我们在一系列模拟和真实数据集上的实验验证了,当选择合适的局部区域及其对应的局部概率模型时,该局部分类方法LPM-BC具有良好的分类效果。4.将局部分类方法应用于基于静息脑电(Electroencephalography,EEG)的生物识别领域。我们设计并实现了一个基于EEG的普适身份识别系统。该系统实时接收并分析受试者的EEG信号,提取相关的特征,然后用局部分类方法根据所提取的特征建立合适的局部概率模型对受试者进行分类识别。在实验中,我们实现局部分类的一个具体化算法局部概率中心(Local Probability Centers,LPC),并利用LPC对受试者的EEG信号进行分类识别,与其他很多先进的全局分类算法相比局部分类算法LPC能达到好的识别效果。本文通过对局部分类方法的深入研究,以贝叶斯决策理论为基础,将局部分类概率化,提出了局部分类的一般方法,该方法可以将分类结果以概率的形式输出,通过选择不同的参数该方法可以具体化为现有的大多分类算法,具有重要的理论价值和广泛的应用背景。
其他文献
随着逐渐普及和广泛开展的全民运动精神,很多人都愿意参与体育锻炼,其中篮球就是一种比较普遍的运动项目,受到了广泛的关注和喜爱。对于篮球活动来说,培养篮球意识以及加强技
不同的转速会导致滚珠丝杠系统产生不同的温度变化。分析滚珠丝杠副转速和温升的关系,建立了滚珠丝杠副热传递过程的微分方程,得到了滚珠丝杠副使用过程中的温度随时间变化的表达形式。进一步得到热平衡状态时滚珠丝杠副的温升计算方法。为验证该方法的有效性,对该模型计算得到的理论温升值与不同转速下试验得到的实际温升值进行对比。通过滚珠丝杠副综合性能试验装置,完成不同转速下滚珠丝杠副温升的测量试验,实际温升值与理论
日前,旨在推广株洲冶炼集团公司新系列合金产品——U28和J28合金的技术推介会在河北沧州、江苏无锡成功召开。来自华东、华北地区50余家客户的相关负责人和技术人员参加了会议
针对传统ICP算法在迭代过程中容易向错误的方向收敛,陷入局部最优解的情况。提出一种基于PCA的ICP改进算法,首先利用主成分分析法计算两组点云数据的主轴方向,找到点云的初始刚度变化矩阵,通过误差分析对初始配准进行误差矫正,解决主轴反向的问题;再利用基于k-d树的K邻近计算方法搜索最近点,改进传统的ICP方法,完成点云的精确配准。实验表明,改进算法能够有效处理不同初始位置的点云数据,实现任意角度下两
针对传统滑模观测器在估计转子位置和转速时存在的抖动问题,分析研究了一种新的滑模趋近律,并提出了一种基于变趋近律滑模观测器的永磁同步电动机无位置传感器控制方法。通过
今年以来,株洲冶炼集团公司稀贵冶炼厂改进铟浸出工艺,对铟浸出渣进行多次处理,出渣率较去年同期下降了30%左右,在提高铟回收率的同时,物料尽可能做到“榨干吃尽”。
众所周知,在篮球的比赛当中,传球技术的准确性对赛况影响是非常大的。传球是有一定的技巧的,什么时候传,该怎么传,传到哪里,这些技术要领是篮球场上运动员必须掌握的,这些技
在滨海县水稻土区开展配方施肥对玉米产量和肥料利用效益影响的田间试验,结果表明:配方施肥处理较常规施肥增产3.7%~4.6%,氮肥利用率提高4.03-4.35个百分点,磷肥利用率提高3.45—6.54个百
3D打印多以硬质材料为主,打印件在纺织服装打样等柔软性要求较高的领域的应用范围受到限制。因此,对于软质材料适用于3D打印的研究就显得很有必要。本文首先对熔融沉积成型中
基于民营银行相比一般银行更具"以实现控股股东或实际控制人利益增长"的天然内在性经营倾向。我国银行规制当局为确保当前民营银行稳健发展、合规经营,在规制过程中应做到如