论文部分内容阅读
支持向量数据描述作为一种基于统计学习理论的单分类方法,在解决有限样本、非线性以及高维数据的模式识别问题中表现出许多特有的优势,已成为机器学习领域的又一研究热点。在构造支持向量数据描述时只需要一个类别的样本信息,将其应用于财务报表舞弊识别的研究中,能够较好地解决舞弊数据不易获得的问题,对降低投资风险、增强会计信息透明度以及促进市场的健康发展都具有重要作用。因此,深入研究支持向量数据描述将具有较高的学术价值和十分重要的现实意义。论文总结了支持向量数据描述的国内外研究现状,分析了已有方法的优缺点。针对模糊支持向量数据描述中隶属度计算所存在的问题,提出了一种在核空间中计算样本隶属度的方法,进而实现了一种分层模糊支持向量数据描述算法。针对基于支持向量数据描述多类分类算法对重叠区域所采用的判别策略的不足,提出一种基于核空间相对密度的支持向量数据描述多类分类算法。针对现有边界优化算法未能充分利用样本在核空间中的分布信息,提出了一种新的边界优化算法。针对现有增量支持向量数据描述算法存在的问题,提出了一种增量支持向量数据描述的改进算法。在对支持向量数据描述研究成果的基础上,设计并实现了一种财务报表舞弊识别模型。论文的主要工作包括以下几个方面:1、总结了支持向量数据描述的研究现状,介绍了机器学习的基本问题和统计学习理论基础,并对支持向量数据描述进行了详细的讨论。2、提出了一种分层模糊支持向量数据描述算法KHFSVDD。该算法首先利用核K-Means将原始问题划分为K个子问题;然后,应用模糊支持向量数据描述算法生成子问题的局部描述;最后,通过合并子问题的解来构建原始问题的全局描述。3、提出了一种核空间相对密度的思想,并将其应用于基于支持向量数据描述的多类分类算法中,以核空间相对密度为决策依据,判断超球重叠区域中待测样本的类别。4、提出了一种边界优化算法,该算法根据超球边界附近样本的平均密度信息,以及待测样本与球心的距离,对边界附近的待测样本的类别进行判断。5、提出了一种增量支持向量数据描述的改进算法,该算法在分析支持向量集构成情况的基础上,以动态的方式选择出可能转变为支持向量的数据进行训练,在约减训练样本的同时保留了更多的数据分布信息。6、构建了一种基于支持向量数据描述的财务报表舞弊识别模型,该模型包括初始描述、增量描述以及报表检测等模块。