论文部分内容阅读
本文主要研究了Web信息的提取及数据库中的知识发现方法。论文的主要内容有: 首先,本文广泛综合吸收了国内外有关数据挖掘(DM)与知识发现(KDD)方面的学术研究成果,并根据所研究的课题,针对数据挖掘在Web上的应用,介绍了其基本的方法、步骤、算法以及所面临的问题等。Web作为巨大的数据源,从Web中提取知识是本文研究的一个主要问题。本文讨论了对于HTML页面,利用信息提取技术,将半结构化数据转化为结构化数据,存储于传统的数据库中,利用基于数据库的数据挖掘算法提取有用的知识,这是一种离线式Web数据挖掘方式;另一种是在线方式,将Web信息提取技术与数据挖掘算法结合为一体,直接对提取的数据进行挖掘。 其次,阐述从数据库中提取有用知识的预处理过程和分类模式挖掘算法。在数据的预处理方面,主要研究粗集理论、数据聚类、概念树、语言场等预处理方法。在挖掘模型与算法的选取中,分类是一种重要的知识发现方法,它能以简洁的模型预测新到达对象的类别。主要介绍基于粗集理论的分类规则提取。此外,由于Web上的数据信息是一典型的动态数据源,本文还以分类规则挖掘为主题讨论动态数据环境下的决策树构造方法。 最后,在上述理论方法研究的基础上,研究开发了农产品市场行情信息的提取与知识发现系统。