论文部分内容阅读
数据挖掘技术是当前计算机技术的研究热点之一,关联规则的研究是近几年研究较多的数据挖掘方法,在数据挖掘的各种方法中应用也最为广泛.较低支持度的项集在传统的关联规则挖掘中通常被忽略,而在这些被忽略的项集间蕴藏着有价值的知识.特异规则是关联规则的一种,特异规则是通过分析特异数据的相关性而从特异数据中发现的规则,特异数据代表了相对较少、与数据集中其它对象不同的对象所描述的特异实例.特异规则具有较低的支持度,通常被传统的关联规则挖掘算法所忽略,特异规则挖掘突破了传统命题级数据挖掘的框架,所以解决特异规则挖掘问题需要一些特殊的处理技术.关系数据挖掘发现关系数据库中涉及多个表的模式,而不需将数据合并到一个表中,克服了传统挖掘算法中需要多表合一的弊端.关系数据挖掘技术在归纳逻辑程序设计领域取得了较大的发展,从KDD的角度,ILP是关于关系数据挖掘技术和工具的发展,其本身就是多表学习.ILP是机器学习和逻辑程序设计的交叉学科,ILP系统不但能直接处理分布在多个表中的数据,并能运用逻辑程序表达有用的背景知识,同时还能运用强有力的逻辑语言来描述发现的模式.该文的工作是将关系数据挖掘技术与特异规则挖掘相结合,主要工作如下:一、目前关于特异规则的研究集中在特异数据的定义、识别,特异规则的学习仅仅是框架上的探讨和学习模型的定义,还没有实际可行的算法,该文将借助ILP技术实现特异规则的学习,完善了特异规则挖掘体系,并以中国统计年鉴数据库为基础,分析了房地产价格特异的原因.二、实体是组成世界的基本对象,对应于关系数据库表中的记录,属性是对实体集中每个成员的特性的描述.而特异规则从属性的角度考察实体某个属性特异的原因,没有分析实体整体的特异性和原因.该文以关系数据挖掘技术为基础,从分析实体整体的特异性出发,提出了关系特异规则,给出了特异实体的识别和关系特异规则的挖掘框架,实现了关系特异规则挖掘原型系统,并运用该系统分析了中国统计年鉴数据库中房地产实体的特异性.