论文部分内容阅读
随着信息时代的飞速发展,存储在数据库中的信息呈指数级增长。人们希望从存储的大量信息中发现隐藏在数据背后的,有价值的知识。传统的数据分析和查询方法已不能满足这个需求。在这种社会需求的强劲推动下,数据挖掘技术得到了飞速发展。目前,数据挖掘技术已经成功地应用在社会的各个领域中,包括金融、医疗、科学、工业等等。数据挖掘技术是一门针对性很强的学科,依据所应用的领域的不同,通常会采用不同的策略和方法。在数据挖掘技术中,数据预处理技术占据着很重要的位置,是能够挖掘出有用知识的前提。 中医是我国古代劳动人民留下的宝贵的财富。中医辩证是中医学中的精华,是中医诊断学的主要研究内容。目前的中医辩证还没有一个统一的标准规范,这限定了中医学的进一步发展。为解决这一问题,本课题组与辽宁中医学院合作,以中医小儿肺炎为例,建立了中医小儿肺炎病例数据录入系统,收集了大量的数据,并利用这些数据,运用数据挖掘技术,试图挖掘出小儿肺炎的证和症状的内在规律,以建立客观的中医小儿肺炎辨证规范。该项目为国家科技部“十五”攻关项目“中医药疗效及安全性基本问题研究”,课题名称为“以小儿肺炎为示范建立辨证规范及中医疗效评价方法体系的研究”。 本文以该项目为背景,主要阐述了数据挖掘技术中数据预处理技术及其在中医小儿肺炎辩证规范数据挖掘系统中的应用。本文首先论述了数据预处理技术所包含的内容,在数据挖掘技术中的重要性,数据预处理技术中涉及的算法,接下来分析了中医小儿肺炎辩证规范数据挖掘系统中数据源的特点,并针对该数据源的特点进行了数据完整性处理、规范化处理、不可靠信息处理及属性约简。针对以往采用粗糙集方法进行属性约简得到的约简子集不能保证得到最小子集的缺陷,着重探讨了一种新的属性约简方法,即将粗糙集理论和蚁群算法(ACO)相结合,基于粗糙集的ACO属性约简算法RACO算法进行属性约简,达到输出最小属性子集的目的。