【摘 要】
:
间隔理论是Boosting算法泛化性分析的关键,因此,基于间隔理论的Boosting算法设计成为当前重要的研究课题。本文基于最新间隔理论成果,首先定义一种近似最优的间隔分布(k*-最
论文部分内容阅读
间隔理论是Boosting算法泛化性分析的关键,因此,基于间隔理论的Boosting算法设计成为当前重要的研究课题。本文基于最新间隔理论成果,首先定义一种近似最优的间隔分布(k*-最优间隔分布)。与AdaBoost生成的间隔分布相比,k*-最优间隔分布能够得到更紧的泛化界,因而具有更好的泛化性。在此基础上,提出两种策略KM-Boosting及MD-Boosting去近似k*-最优间隔分布。其次,针对现有间隔分布泛化界难以计算的特点,推导基于经验间隔分布一阶矩和二阶矩的Boosting泛化误差界(Boosting的矩泛化界),该泛化误差界可更直接地刻画间隔分布对Boosting的影响。然后,依据所推导的Boosting的矩泛化界,给出Boosting算法的模型选择准则(Boosting的矩准则),该准则最大化间隔分布的一阶矩同时最小化间隔分布的二阶矩。采用列生成实现该准则,进一步提出矩优化的Boosting算法。最后,实验结果表明,本文的方法是有效且可靠的,与理论分析一致。
其他文献
聚类是一门非常重要的技术。所谓聚类就是按照某种度量(相似性度量、不相似性度量或距离),根据一定的准则将个体集合分成若干类,使得同类个体之间的相似程度大于不同类个体之
由于Web海量的信息处于不断的变化中,搜索引擎己经很难再为用户提供一个高质量的、全面并且更新及时的信息搜索服务,其局限性在于它试图索引全部Web信息并服务于所有主题的查询
近几年来,随着信息技术的飞速发展,计算机网络在人类生活的各个领域已起着越来越重要的作用。由于Internet使用的网络协议在早期设计上对安全问题的忽视,导致网络安全事故屡
近年来,无线网络带宽的增长、终端处理能力的快速提高、编解码技术的日益成熟,使得移动流媒体技术有了长足的发展,移动流媒体业务得到了广泛开展,宽带接入和移动化的时代已经
随着技术的飞速进步和业务需求的与日俱增,存在于每个企业中的信息系统也在不断更新和增加,由于每个系统开发的年代不同、开发采用的工具、语言不同、系统运行的平台不同,这
目前,人们对服务质量、网络安全、网络管理等方面的需求日益迫切,传统互联网结构越来越高的复杂性给网络运营、管理、扩展、新业务的部署带来了很大问题。因此传统互联网结构
工作流技术是当前计算机应用领域的一个研究热点,利用工作流技术对企业进行业务过程的建模和分析不仅可以规范化企业的业务流程,发现业务流程中不合理和低效的环节,进而对企
图像处理、信息检索以及生物信息学等大规模机器学习问题的不断涌现,对已有的特征选择算法和机器学习算法提出了严峻的挑战,迫切需要适应大规模数据集的准确性和运行效率等综
随着互联网科学技术的飞速发展,投放互联网广告已在全球范围内形成趋势。搜索广告作为搜索引擎的主要收入来源,成为了近年来在线广告领域的研究热点,而预测搜索广告的点击率