论文部分内容阅读
数据挖掘是从大型数据库的数据中提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在有用信息。分类规则挖掘则是通过对训练样本数据集的学习构造分类规则的过程,是数据挖掘、知识发现的一个重要方面。分类规则挖掘的实质是希望得到高准确性、易于理解的和有趣的分类规则。本文对遗传算法进行分类规则挖掘进行了研究,并在此基础上,进一步研究了基于小生境遗传算法挖掘易于理解的分类规则和基于自适应遗传算法发现有趣分类规则的技术。遗传算法是一种基于生物进化论和分子遗传学的全局随机搜索算法。本论文对应用遗传算法实现分类规则挖掘的关键技术进行了分析,包括个体编码、适应度函数的设计、遗传操作算子的设计等,从理论上阐述了基于遗传算法的分类规则挖掘的方法。在此基础上,为了从现有数据中挖掘易于理解的分类规则,本文提出了一种应用属性信息增益计算分类规则可理解性程度的方法,改进了以往方法中仅依靠规则的简单度来评价分类规则易于理解性的缺点,从而使得到的分类规则包含有更多的分类信息,更加有助于用户的理解。同时,为了克服普通遗传算法近亲繁殖、局部收敛的缺陷,本文在遗传算法的实现过程中应用了小生境技术。实验表明,这种分类算法切实可行、可操作性好、得到的结果易于理解。 目前在数据库中发现有趣分类规则仍是分类规则挖掘中一个具有挑战性的领域,本文提出了一种基于遗传算法发现有趣分类规则的方法。首先,通过使用属性信息增益和设置属性信息增益权值来构造度量分类规则有趣度的适应度函数,改进了以往算法中对于规则的有趣度的主、客观评测方法相分离的做法,使得对分类规则有趣度的评价实现了主、客观评测方法的统一。其次,为了防止进化过程过早收敛或降低收敛速度,本文讨论了应用自适应遗传算法实现有趣分类规则挖掘的方法。实验表明,这种分类方法能够发现数据库中的有趣规则。