基于统计学习的分类方法及在Web挖掘中的应用研究

被引量 : 3次 | 上传用户:ccqccqccq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,基于统计学习的模式识别技术已经得到了较深入的研究,一些相关技术成果已成功高效地应用于各种不同的领域。但因为统计学习理论尚处于发展阶段,针对某些具体的应用领域(如Web数据挖掘),其还有很多问题尚待解决,例如:如何实现鲁棒的流形特征降维、如何根据数据分布结构来优化分类边界的问题、如何实现不同数据领域之间的学习迁移问题等等一系列重要工作。具体地讲,本课题主要研究内容主要包括三个部分,各部分的内容概括如下:第一部分主要由第二章组成,在该部分,我们针对传统的LLE对离群(或噪声)敏感的问题,提出一种鲁棒的基于L1范数最小化的LLE算法(L1-LLE),通过L1范数最小化来求取局部重构矩阵,减小了重构矩阵能量,能有效地克服离群(或噪声)干扰,利用现有的优化技术,L1-LLE算法简单且易实现。证明了L1-LLE算法的收敛性。通过与传统LLE方法进行性能比较,结果显示L1-LLE方法是稳定、有效的。第二部分主要由第三章、第四章、第五章和第六章构成,该部分重点探讨了在同时考虑类内数据分布结构最小化和类间间隔最大化的情况下,如何更有效地提升SVM(包括线形和球形SVM)的泛化性能。在第三章中,我们对于模式分类问题,提出一种新颖的具有磁场效应的大间隔支持向量机(MFSVM),在Mercer核诱导的特征空间中,MFSVM能同时解决一类(新奇检测)和二类模式分类问题。MFSVM本质上是一个带约束的线性支持向量机,其旨在学习一个具有磁场效应的最优超平面,通过引入一个最小化的q-磁场带,使得一类(或正常类)被包含其中,而另一类(或异常类)与该q-磁场带的间隔尽可能的大,从而实现类内内聚性的提高和类间间隔的增大,增强线性SVM的泛化性能。在第四章中,我们针对现有模式分类方法不能较好地保持数据空间的局部流形信息或差异信息等问题,提出一种基于流形学习的局部保留最大信息差v-支持向量机(v-LPMIVSVM)。对于模式分类问题,v-LPMIVSVM引入局部同类离散度和局部异类离散度概念,分别度量输入空间局部流形结构和局部差异(或判别)信息,通过最小化局部同类离散度和最大化局部异类离散度,优化分类器的投影方向;在数据点对间的相似性度量上,v-LPMIVSVM采用了适于流形数据距离度量的测地线距离度量方式,以更好地反映流形数据的本质几何结构,从而增强了所提方法的泛化性能。在第五章,为了提高球形分类器的分类性能,受支持向量机和小球体大间隔等方法的启发,提出一种大间隔最小压缩包含球(Large Margin and Minimal Reduced Enclosing Ball, LMMREB)学习机,其在Mercer核诱导的特征空间,通过优化一个最小包含球,以寻求二个同心的分别包含二类模式的压缩包含球,且使二类模式分别与压缩包含球间最小间隔最大化,从而同时实现类间间隔和类内内聚性的最大化。在第六章,为了解决传统支持向量机易出现学习“过拟合”和丢失数据统计特征等问题,通过引入模糊隶属度和总间隔思想,提出一种基于总间隔的最大间隔最小包含模糊球形学习机(TMF-SSLM),使得一类(正类)被包含于一个最小包含超球内,而另一类(负类)与该超球间隔最大化,从而同时实现类间间隔的增大和正负两类类内体积的缩小。通过使用差异成本,解决了不平衡训练样本问题;引入总间隔和模糊隶属度,克服了传统软间隔分类机的过拟合问题,显著提升球形学习机的泛化能力。第三部分主要由第七章和第八章构成,该部分深入探讨了领域迁移学习问题。在第七章,针对当前流形的领域迁移SVM方法中仅考虑领域间分布均值差最小化所存在的局限性问题,在某个再生核Hilbert空间,我们在充分考虑领域间分布的均值差和散度差最小化的基础上,基于结构风险最小化模型,提出一种领域适应核支持向量学习机(DAKSVM)及其最小平方范式(LSDAKSVM),取得了优化或可比较的模式分类性能。在第八章,针对领域适应学习问题,我们提出一种核分布一致局部领域适应学习机(Kernel Distribution Consistency basedLocal Domain Adaptation Classifier, KDC-LDAC),在某个通用再生核Hilbert空间,基于结构风险最小化模型,KDC-LDAC首先学习一个核分布一致正则化支持向量机,对目标数据进行初始划分,然后基于核局部学习思想,对目标数据类别信息进行局部回归重构,最后利用学习获得的类别信息,在目标领域训练学习一个适于目标判别的分类器。所提方法具有优化或可比较的领域适应学习性能。最后,在第九章,我们对本课题研究内容进行了总结和展望。
其他文献
回归空间本体来认知历史城市的形态演变与发展,进而在找到引起城市形态演变动因的前提下,提出应对城市文化遗产保护的对策,这是本文研究思路中最为本质和核心的内容。从历史演进
改革开放以来,由于忽视了环境、资源、生态等自然系统方面的承载力,粗放型的经济发展模式在使得我国经济保持快速增长的同时,也让我们不得不面临着诸如空气污染、水源污染、
利用有色Petri网(CPN)建模工具,得到了舰艇编队指挥、控制、通信及情报(C~3I)系统的可行结构空间,同时结合CPN Tools得到了匹配测度模型,进而得出面向作战任务的舰艇编队C~3I
本文主要研究新课改背景下,高中语文课堂开展的小组合作学习的有效性问题。包括新课改背景下语文课堂开展小组合作学习的意义;当前语文课堂小组合作学习中存在的问题及原因分析
本文从焊接应力和焊接变形的控制角度出发,对斗底的焊接工艺进行分析和改进。实践证明,利用改进后工艺制造的斗底,变形量得到有效控制,产品合格率也大大提高,较好地解决了长
中国于1956年完成社会主义三大改造,建立社会主义制度,开始进入社会主义初级阶段。在这一阶段,社会主要矛盾是“人民日益增长的物质文化需求同落后的社会生产之间的矛盾”。一直
全球气候变暖是当今世界面临的重要环境问题,主要是由于大气中温室气体CO2、CH4和N20等浓度不断增加引起的。农田生态系统碳氮转化过程是预测大气C02和N20浓度及气候变化的重
目前,有些地方开发的与羌族相关的旅游项目,诸如羌族建筑、羌族歌舞、羌族服饰、羌族景观雕塑、羌族旅游工艺纪念品、羌族餐饮等都程度不同地存在许多不合理开发利用现象,导
目的:在建立溃疡性结肠炎(Ulcerative Colitis,UC)大鼠模型的基础上,研究清化肠饮对大鼠总体情况、结肠肉眼观、组织病理变化、血清炎性细胞因子(肿瘤坏死因子-a、白介素-6、
研究背景:全世界有超过3.5亿人口慢性感染乙型肝炎病毒(Hepatitis B virus,HBV),导致肝硬化、肝功能失代偿、肝细胞癌(hepatocellular carcinoma,HCC)一系列终末期肝病的高发