基于二次学习风范的数据挖掘算法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:rg198938
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,数据的产生、获取和积累变得十分简单快捷。为此,如何高效地从海量数据中发现有价值且易于被用户理解和使用的信息和模式,成为了一个十分重要而紧迫的问题。本文对如何通过二次学习风范提高学习系统的可理解性进行研究,取得了以下成果:  1.提出两种新的二次学习算法C4.5Rule-PANE-rd和C4.5Rule-PASV。现有的二次学习算法假定样本在特征空间中服从均一分布并采用集成学习器作为第一阶段的分类器。C4.5Rule-PANE-rd算法修改了样本的生成算法,使得第二阶段的训练样本更加接近原始分布。同时,本文提出采用支持向量机作为第一阶段分类器的C4.5Rule-PASV算法。实验结果表明,新算法在泛化能力和可理解性方面均有提高。  2.提出基于间隔理论的二次学习算法C4.5Rule-TOOLS。该算法的泛化能力可以由间隔理论的泛化错误率上界来保证。实验表明,C4.5Rule-TOOLS算法不仅有效提高了分类性能,还由于大幅减少了生成规则的数量而显著提高了输出规则的可理解性。  3.将提出的二次学习算法应用于心理学数据分析。实践证明,本文提出的二次学习算法均能有效地从心理学数据中发现泛化能力强、可理解性好的模式,这表明了二次学习算法在心理学研究领域具有广阔的应用前景。
其他文献
无线传感器网络是一项新兴的技术,从一开始发展就备受关注。2003年,美国《技术评论》杂志论述未来十大技术时,无线传感器网络被列为第一项未来新兴技术。同年美国《商业周刊》又
计算机和通信技术的发展使数据量以难以想象的速度急剧膨胀,有人把这种现象称作是全球性的数据爆炸,这些数据具有海量、异构、分布、依赖主体等新的数据特点,传统的数据管理技术
测井资料处理评价过程是带有研究性质的探索性过程,没有成熟的、一成不变的处理方法和流程。测井资料处理解释工具软件要具备分层取值、曲线标准化、岩心归位、解释建模、批处
动态社会网络分析关注于随时间变化的社会交互的变化,开阔了社会网络分析的领域,具有很好的研究价值和应用意义。  本文主要基于现实场景出发,构建实体识别和社团识别的动态社
移动自组网络(Mobile Ad Hoc Network,MANET)是有别于蜂窝系统的另一种无线网络组织方式。它不需要固定基础通信设施的支持,具有组网灵活、抗毁性强、允许节点自由移动、易于快
测井处理解释平台是测井处理解释技术的载体。目前计算机和网络技术的发展,为测井专业处理解释软件的进步提供了强有利的技术保障,也对测井处理解释平台的发展提出了更高的要求
模型驱动架构是对象管理组织(OMG)提出的一种软件模型组织管理框架。模型驱动架构为人们提供了从模型级别实现软件重用的有力支持。   模型驱动的核心思想是将软件的业务
当今计算机科技日新月异,信息化已经走进人们的生活,自动控制、无纸化自动办公、企业信息化、网上书店、网上娱乐等等都是信息化时代的产物。当今的时代是经济全球化、信息网络
Ad Hoc网络是一种特殊的多跳无线网络,是不依赖任何固定设施的移动无线自组织网络,网络中的每个无线节点都是对等的。由于Ad Hoc网络的灵活性和实用性,加之近年来无线通讯技
随着信息化时代的发展,新疆油田公司准备以信息化形式管理准噶尔盆地近50年来积累的勘探和开发的数据和经验。但是这些数据和经验是海量的,要有效的管理和利用这些数据,需要依赖