一种基于数据继承关系的C4.5分类优化算法

来源 :NDBC2009第26届中国数据库学术会议 | 被引量 : 0次 | 上传用户:whlyxyx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统C4.5分类模型在选择属性分支利用信息增益的方法选择测试属性,相比其他树分类模型在速度和预测精确度上都有较理想的结果.但是C4.5分类模型在一个测试属性展开分支的时候需要对属性的每个值产生一个分支,这导致了决策树规模的增大,不利于分类模型泛化能力和健壮性.而在现实世界中存在着大量具有本体关系上的层次的继承关系的数据,例如体现在具体属性上可能是数据描述的精度或者抽象程度的不同.结合了数据的这一个特点和C4.5分类模型在选择属性分支利用信息增益的方法,在自动构造的继承关系树引导下构造了一个C4.5的改进模型,尽可能使训练样本在数据的更高的抽象程度作出分裂,以产生更少的分支.在UCI数据集上检验了该分类模型,实验结果表明该模型有效地提高健壮性上,在预测精确度和可理解性上的表现也比较好.
其他文献
对基于表面属性的三维模型检索进行研究,提出了基于面积颜色分布、基于球面颜色分布、基于颜色球面调和的三维模型检索方法以及基于表面属性的融合方法.通过对模型表面进行按面积均匀采样来获取其颜色分布信息后形成基于面积颜色分布的特征.通过对模型进行均匀球面采样获取颜色分布信息形成基于球面颜色分布的特征.通过首先将模型表面颜色信息按等经纬度球面采样映射为球面函数,然后对其进行球面调和变换形成颜色球面调和特征.
在分析层次工作流建模和工作流执行时互操作研究的基础上,设计了一个基于代理的邦联及子流调用框架,将层次化建模技术、流程互操作技术和异构数据模型映射和转换技术集成在一起,同时提供了异常处理和灾难恢复功能,真正从业务层次上解决了流程协作问题,并在TiPLM2.9上实现了该解决方案.流程实例之间通过代理进行交互,各个流程独立运行在自己的工作流引擎中,实现了松耦合和隔离性,增强了系统健壮性.
传统工作流系统在对任务节点进行资源分配时,只进行了组织、角色、人员的分配,而较少对不同任务节点上执行人间的潜在关系进行建模.根据企业的实际应用需求,将这种潜在的约束关系提取出来进行建模,并以规则的形式进行定义.最后采用强有力的推理工具——规则引擎——来完成对定义的规则冲突检测以及规则的实现.
深层网数据库的访问方式主要是通过查询接口,所以查询接口是外部访问深层网数据库的门户。为了能够同时访问同一领域多个Web数据库,需要对多个Web数据库的查询接口进行集成.因此,提出基于本体的深层网查询接口集成方法.首先构建领域核心本体,在模式匹配过程中,不断完善核心本体;然后,以本体作为媒介,在不同查询接口模式间建立属性映射关系,发现属性间的语义关联;最后,根据本体概念出现的频数生成集成接口.实验表
近年来,基于图形处理器的通用计算获得了广泛关注,并在多个领域取得了进展.内存OLAP减少了磁盘I/O,但基于单核或多核CPU的计算能力及cache miss成为新的性能瓶颈,从而无法保证好的效率.而图形处理器由于其众多核和高带宽能够很好地适应OLAP计算特性.通过图形处理器来加速任一cuboid的计算,从而提高整个内存OLAP系统的性能.提出了基于图形处理器的分块并行算法,并对算法进行了优化及讨论
skyline查询是数据挖掘一个重要的研究方向,在基于数据的决策支持等应用中有着重要的作用.由于现实应用中存在着大量的不完整数据流,但大多数现有的skyline查询算法都依赖于如下的假设:1)任意数据点的所有维度值都是已知的;2)数据集是稳定、有界的并且可以随意访问.此外,随着数据维度的增加,skylime数据点的个数会变得过多,因此引入了k-支配skyline的概念,但是不完整数据的k-支配关系
随着计算机网络的快速发展,网络上的信息量也日益纷繁复杂.如何准确、快速地帮助人们从海量网络数据中获取所需信息,这是目前搜索引擎首要解决的问题,为此,各种搜索排序算法应运而生.但是目前,网页信息的表达形式都十分简单,用户描述查询的形式更是十分简单,这就造成了在判断网页内容与用户查询相关性时十分困难.首先对现有的搜索引擎排序算法进行了分类总结,分析它们的优缺点.然后提出了一种基于用户反馈的语义标记的新
数据流挖掘已在许多领域得到应用,概念漂移检测是数据流挖掘研究中的一个重点.目前关于数据流中的概念检测的研究虽然取得了很多成果,却没有充分考虑到数据流概念“周期性”出现的特点.针对周期性概念漂移的特点,提出了当“历史概念”重现时,利用对应的模型来对数据流进行分类的方法,从而减小模型更新的代价,加快分类预测的速度.实验证明这种方法提高了运行效率.
完整性是数据质量的一个重要维度,由于数据本身固有的不确定性、采集的随机性及不准确性,导致现实应用中产生了大量具有如下特点的数据集:1)数据规模庞大;2)数据往往是不完整、不准确的.因此将大规模数据集分段到不同的数据窗口中处理是数据处理的重要方法,但缺失数据估算的相关研究大都忽视了数据集的特点和窗口的应用,而且固定大小的数据窗口容易造成算法的准确性和性能受窗口大小及窗口内数据值分布的影响.假设数据满
Top-k查询是Web和多媒体搜索、决策支持、分布式系统等众多领域中最重要的查询之一,它返回数据集合中忌个最关键的元组.大型数据集合往往包含一系列分类型属性,获取对目标属性影响最大的k个分类型属性值对于许多应用中也非常重要.研究了这个问题,正式定义了k-AKC和PKC两种查询,并设计相应的查询处理算法.实验结果表明,改良算法PKCQ+具有较佳的有效性和高效性.