论文部分内容阅读
现有数据挖掘技术所面向的数据大多是在原始层次上的,相应的挖掘方法是无领域知识融合,或者是依赖于用户参与的人工方式融合领域知识来实现知识发现的过程。然而,实际应用领域的数据存在层次上的差异,有些数据是原始级的,还有些数据与其他一些数据密切相关,并且采用这些相关数据的适当的组合或泛化粒度可能更好地揭示其内在的规律。因此,充分利用与原始数据相关的领域知识指导数据挖掘的工作,能“从极不相同的粒度上观察和分析同一问题”,达到在合理的数据层次上获取知识,在不同的数据层次上灵活转换,做到往返自如,毫无困难,这成为重要的研究课题。鉴于实际应用领域中,大量的数据存在着以属性扩展或延伸为代表形式的领域知识,而此类领域知识大多采用关系表的形式出现。因此,本文重点研究关系型领域知识的表示及其与数据挖掘研究工作融合的方法,从而自动有效的开展知识发现工作。本文主要研究工作如下:(1)提出基于关系模型领域知识的结构化表示模型DKMRM (Domain Knowledge of Multi-Relations Model,DKMRM)。模型中采用关系模型对数据表中的相关属性的领域知识进行映射或投影,从而构成领域知识的上下文关系表,进而形成了复杂的多关系表示模型。在面向关系型数据库系统进行挖掘时,利用这种模型和必要的变换策略,可以将某些原始数据泛化或例化到合理的层次,以获得更符合用户个性化需求的知识形式。(2)基于DKMRM的数据挖掘研究工作。提出面向数据挖掘的关系型领域知识融合方法。以分类问题为实际案例,建立融合关系型领域知识的分类挖掘方法框架。针对传统挖掘方法存在的局限性,本方法框架有效解决传递源、传递路径、终止策略、传递的偏差统计等关键问题。(3)提出基于属性选择的多关系分类挖掘算法CC-DKMR ( Classification of Characters based on Domain Knowledge of Multi-Relations,CC-DKMR)和基于关系表选择的多关系分类挖掘算法 CS-DKMR (Classification of Sheets based on Domain Knowledge of Multi-Relations,CS-DKMR),以寻求在不同的数据粒度层次上挖掘模式和灵活的转换机制,从领域知识中获取更有价值的知识。实验表明此方法是有效的。(4)提出在数据挖掘的评测阶段融合领域知识的挖掘算法的评测方法,解决数据挖掘的算法(程序)存在的“oracle”现象,传统的评测方法难以具有适应性的问题。基于蜕变测试技术,该方法有效利用领域知识,并针对分类、关联、聚类挖掘算法的具体案例开展研究分析,构造了针对具体算法的蜕变关系。实验结果表明,此方法能有效达到评测目的,并具有适用其它领域的推广可行性。