论文部分内容阅读
数据挖掘是指从大型数据库的数据中提取出隐含的、事先未知的、潜在有用的信息的非平凡过程。而关联规则是数据挖掘中一个重要的技术,也是在无指导学习系统中挖掘本地模式的最普通形式。遗传算法则是一种基于生物进化论和分子遗传学的全局随机搜索算法。
本文对遗传算法和关联规则分别进行了阐述和研究。并在此基础上,进一步研究了基于遗传算法的关联规则数据挖掘。首先对遗传算法的关键技术进行了分析,其中包括适应度函数的设计、遗传算子的操作等,尤其是在染色体编码中应用了实数编码,从理论上解释了如何应用遗传算法解决实际问题。其次在分析遗传算法的基础上阐述了如何和关联规则结合起来,对数据库进行挖掘。而且为了更好挖掘关联规则,提出了一种增加关联规则属性的计算方法,即从原有的支持度、置信度属性之外再添加一项规则---关注规则的方法,改进了通常以往关联方法中仅依靠规则的支持度和置信度来评价关联事物的特点,从而使得到的关联规则包含有更多的信息,更加有助于用户的理解。
本文采用遗传算法和关联规则相结合的算法来寻找最优解,提高了通常关联规则算法(如APRIORI算法)处理大型数据库的效率,避免了资源浪费。通过实验表明,这种算法切实可行、可操作性好、得到的结果也易于理解。