基于最大条件概率的单依赖分类器聚合算法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:WOBENLAI
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
尽管朴素贝叶斯分类算法足够简单,它仍表现出了极好的分类性能。然而作为其核心思想的条件独立性假设,在真实应用中却很少能够被满足。基于单依赖分类器的聚合算法作为对朴素贝叶斯模型的一类改进模型,很好地削弱了特征间的独立性假设,并在分类准确度和模型方差等评价指标上表现突出。然而现有的聚合模型都过分强调单个子模型的分类性能对整个聚合模型的影响,而忽略了全局优化的重要性。基于全局优化的假设,本文提出了基于最大条件概率(Conditional Log Likelihood)的单依赖聚合(Ensemble super parent One Dependence Estimator)模型(EODE-CLL)。首先采用最大条件概率作为全局优化的目标,它在机器学习中常被用来作为目标函数而进行参数计算,核心思想是最合理的参数应该使得从模型空间中抽取出样本数据的概率最大,相比以拟合样本数据为核心的最小二乘法等,能够避免模型的过拟合。其次提出两层权重结构:除了作为线性组合的第一层权重外,在每个子模型内部还提出了区分不同特征重要性的第二层权重,引入第二层权重结构在子模型进行局部优化,过滤低相关特征,突出高相关特征,从而使各个子模型充分最优。最后采用随机梯度下降法求解最优解,它是机器学习中常被用来求解参数的迭代方法,计算简单高效,求解过程中只需计算目标函数对参数的偏导,还衍生出了批量随机梯度下降法和分布式随机梯度下降法,具有很好的扩展性。此外,本文提出的EODE-CLL模型是一个有监督的聚合模型,具有较强的表达能力,通过设置不同参数,能够拟合现有的多数聚合模型。论文在36个UCI(加利福尼亚大学机器学习知识库提供的基准数据集)的公开数据集上进行对比实验和结果分析。实验结果表明EODE-CLL在分类准确性,F值,偏差和方差等性能方面均优于现有的选择和加权聚合模型。
其他文献
随着计算机网络的迅速普及和网络应用在社会生活各个层面中的日益深入,网络安全成为了一个重要问题。访问控制是国际标准化组织ISO在网络安全标准(ISO7498-2)中定义的安全信
随着国内信息化建设的发展,越来越多的信息管理系统投入运行。如何解决日益突出的信息孤岛问题,实现数据交换与共享,已经成为研究热点之一。作者围绕信息共享平台建立的核心
入侵检测技术作为一种能够自动、实时地保障网络信息安全的动态安全技术,构成了继防火墙、身份验证等传统的静态安全设备之后的第二道防线,越来越受到国内外学者的重视;而分
随着现代企业的发展和信息化,企业的各种信息系统日益庞大和复杂,系统安全形势也日益严峻。企业应用系统的每个环节都有可能遭到安全威胁,应用系统需要保护众多的资源,然而目
随着电力电子设备数量的迅速增多和电网中各种非线性负载的增加,电网电压、电流中的谐波含量日益增高,致使供电和用电设备过热、电能损耗增加,、对电力系统的安全、经济运行造成极大影响。实时测量电网中的谐波含量,对于防止谐波危害具有重要的现实意义。为了实现对电网中的谐波实时而精确的检测,首先对文献和专著中给出的各种谐波检测方法进行了分析和比较,确定了谐波检测所采用的算法,并在此基础上完成一种谐波检测仪整体方
随着对网络安全要求的不断提高,软件的安全性成为了人们关注的焦点,如何在开发过程中即关注安全问题,开发出安全的软件已成为软件工程的研究热点。本文针对需求分析阶段的安
SyncML是SynchronizationMarkupLanguage(同步标记语言)的缩写。SyncML协议是一种基于XML(扩展标记交换语言)的新一代的数据同步协议,可以适用于各种不同的通信平台和通信网络
目前,企业应用系统广泛采用基于Web的多层体系结构。J2EE技术诸多优点使其成为构建企业级Web应用事实上的标准,但J2EE自身一些缺陷或者不好的方面一直困扰着系统架构师和项目
数字水印技术是一种有效的数字产品版权保护和数据安全维护技术,是信息隐藏技术研究领域的一个重要分支,数字水印技术将特定信息嵌入数字产品中,是一种新型的版权保护机制,借