论文部分内容阅读
随着计算机数据采集工具以及数据库技术的发展,目前我国各个行业已存储了大量的数据,尤在农业、气象、医疗等行业最为突出。传统的数据分析手段由于只能提供对数据的查询、检索、统计等表层信息,无法获得数据属性的内在关系和隐含信息,使得数据车中蕴涵的丰富知识得不到充分挖掘和利用,造成了资源的极大浪费。为了使消耗大量财力与物力所收集与整理的宝贵数据资源得以充分利用,有效地解决数据丰富性及知识贫乏性的矛盾,需要新的技术智能、自动地分析处理原始数据,从而促使了数据库知识发现(KDD,Knowledge Discovery in Database)研究的出现。 数据库知识发现通过综合运用统计学、粗糙集、模糊数学、机器学习和专家系统等多种技术从各种数据库中提炼出先前未知的、平凡的、具有潜在应用价值的信息或模式,从而揭示出蕴涵在这些数据背后的内在联系和本质规律,指导人们有效地利用数据库中的数据并为正确决策提供依据。 1982年波兰华沙理工大学的Z·Pawlak教授提出了一种刻画不完整性和不确定性知识的形式化方法-----粗糙集理论(Rough Sets Theory)。由于粗糙集理论的使用不需要先验知识的介入,相比较其他知识发现方法,它给应用带来更大的便利。 本文围绕如何根据农业领域的数据特性实现其知识发现,展开研究和讨论,提出了基于粗糙集理论的农业数据库知识发现方案。 首先,通过对粗糙集理论的深入研究,阐明粗糙集理论是一个适用于不完整和不确定系统工程知识发现的数学工具,尤其适用于农业领域数据的知识发现。 其次,讨论和分析了农业数据处理阶段属性值的范化问题。 第三,在前两步工作的基础上重点探讨了粗糙集的属性约简方法,对多种算法进行分析比较、指出各自的性能和适应范围,并针对农业数据特点提出了一种改善农业数据属性约简速度的新型算法。 最后,针对农业领域的数据特性和挖掘的具体任务,结合前几步的研究结果提出了一种基于粗糙集理论的农业数据库知识发现系统模型。 数据库中的知识发现研究仍然处于起步阶段,它在农业领域中还有许多问题值得探讨。本文所提出的基于粗糙集理论的农业数据库知识发现方案试图为我国农业数据库的知识发现领域提供一种新的认识和尝试性方法。