【摘 要】
:
数据挖掘领域里,分类问题一直以来都是的一个重要研究分支。在当前多数据源数据日益普及的情况下,对数据挖掘领域中分类问题的研究也提出了新的挑战,例如如何从多个数据源中
论文部分内容阅读
数据挖掘领域里,分类问题一直以来都是的一个重要研究分支。在当前多数据源数据日益普及的情况下,对数据挖掘领域中分类问题的研究也提出了新的挑战,例如如何从多个数据源中提取出分类知识,并加以有效的融合。因此,研究一种有效的多数据源分类知识融合方法已成为当前数据库中知识发现的一个重要的研究方向。 概念格,是一种通过概念间的内涵和外延以及例化和泛化的关系来表示知识的模型。在概念格的内涵中引入等价关系,便可得到概念格的扩展模型,即扩展概念格,这种模型更加有利于分类知识的提取。本文的主要研究内容如下: 1.采用基于扩展概念格的方式,首先在每个数据源上建立对应的扩展概念格,然后从中提取出所需的分类知识,再加以有效的融合。文中涉及到了两种方式的知识表现形式:分类规则和分类子格,和与它们相对应的两种融合机制。对于这两种融合机制所得到的分类知识的完备性,都在文中给与了理论证明和实验验证。 2.对概念格扩展模型采用预剪枝的策略,来抑制过拟合现象的出现。概念格扩展模型具有较高的模型复杂度,一方面使其能够对训练数据集进行十分准确的分类,另一方面有会使得它很容易引起模型“过度拟合”现象的出现,从而影响到分类器在实际测试数据上的准确率;对此文中采用了对格进行预剪枝的方法,阻止格中部分不必要的分支的出现,从而降低模型的复杂度,避免模型过度拟合现象的出现。 3.在上述研究工作的基础上,实现了基于多扩展概念格的分类知识发现原型系统。
其他文献
可满足性问题(即SAT问题)是第一个被证明的经典NP问题。人们一直致力于如何在有限的时间求解可满足性问题。随着现实世界中可满足性问题的规模逐渐增长,预处理技术已经逐渐受
随着计算机网络的全球化,网络应用不断发展,随之引发的网络安全问题越来越为企业和政府所重视。传统的网络安全技术侧重于网络的入侵检测或防病毒软件,这类安全措施通常不能减少
质量保证已经成为软件行业越来越重要的一个指标。不管项目采用的是什么软件开发模型或流程,软件质量都是软件开发项目能否成功的一个关键的因素。敏捷开发是一种相对来说较新
RSA是一种公钥密码算法,其加密密钥和算法本身都可以公开,解密密钥则归用户私人拥有。从诞生那天起,RSA就因为安全强度高、使用方便等卓越性能受到关注,并得到广泛应用。目前
排课问题是一个涉及多因素约束的、多目标的、结构复杂的典型组合优化问题,并且已被证明为一个NP完全类,其问题求解的时间复杂度呈指数函数增长。分布式环境下的排课所面临的突
随着诊断技术的激烈竞争和计算机技术的迅猛发展,设备的状态检测与故障诊断已成为现代工业生产、航空航天和国防建设中的重要内容,也是科学界研究的热点之一。本文在分析各种神
随着WiFi与ZigBee技术的不断发展以及他们在日常生活中发挥着越来越重要的作用,如高速网络接入和火灾监控等,这两种异构网络得到了越来越广泛的部署。由于WiFi和ZigBee共享2.
无线Adhoc网络是一种具有高度动态拓扑结构的网络。每一个无线Adhoc网络由一组移动节点组成,它们与传统的蜂窝技术的根本区别在于移动节点之间的通信是在没有固定基础设施支持
汉语言认知是认知神经科学领域中的重要分支。目前,针对多音字的研究还比较少,其认知机制还尚不清楚。因此,本研究的主要工作是采用具有高时间分辨率的事件相关电位(Event-Re
本系统是在对我校招生管理流程进行完整而深入分析的基础上,结合学校实际业务以及校园网络应用环境的需求,进而提出基于.NET框架的一种C/S和B/S模式相结合的设计与实现综合方案