Web信息提取及知识发现方法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:gratify
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要研究了Web信息的提取及数据库中的知识发现方法。论文的主要内容有: 首先,本文广泛综合吸收了国内外有关数据挖掘(DM)与知识发现(KDD)方面的学术研究成果,并根据所研究的课题,针对数据挖掘在Web上的应用,介绍了其基本的方法、步骤、算法以及所面临的问题等。Web作为巨大的数据源,从Web中提取知识是本文研究的一个主要问题。本文讨论了对于HTML页面,利用信息提取技术,将半结构化数据转化为结构化数据,存储于传统的数据库中,利用基于数据库的数据挖掘算法提取有用的知识,这是一种离线式Web数据挖掘方式;另一种是在线方式,将Web信息提取技术与数据挖掘算法结合为一体,直接对提取的数据进行挖掘。 其次,阐述从数据库中提取有用知识的预处理过程和分类模式挖掘算法。在数据的预处理方面,主要研究粗集理论、数据聚类、概念树、语言场等预处理方法。在挖掘模型与算法的选取中,分类是一种重要的知识发现方法,它能以简洁的模型预测新到达对象的类别。主要介绍基于粗集理论的分类规则提取。此外,由于Web上的数据信息是一典型的动态数据源,本文还以分类规则挖掘为主题讨论动态数据环境下的决策树构造方法。 最后,在上述理论方法研究的基础上,研究开发了农产品市场行情信息的提取与知识发现系统。
其他文献
随着Internet技术的不断发展,越来越多的企业利用Internet技术组建企业信息网.基于Web的企业信息系统从根本上满足了企业对信息高质量的需求,提高了企业的经济效益,为管理者
电子政务是当前我国信息化工作的重点。电子政务的核心问题之一是实现政府各部门行政审批程序的电子化、网络化,即网上审批。网上审批将使提高政府办公效率、优化审批流程、精
随着通信技术、网络技术的不断发展,网络已经成为我们学习和生活中重要的基础设施.而校园网作为学校教育信息化建设的基础,在教学、科研、管理等方面发挥着越来越重要的作用.
主存数据库是数据库技术的一个分支,一般指将整个数据库存放于主存之中,通过简化操作、精简代码来缩短系统的响应时间,增加系统的吞吐量。它特别适用于一大类实时应用系统。传统
海量数据的存在以及从海量数据中提取决策信息的强烈需求,使得数据挖掘日益成为研究的热点.该文主要研究了数据挖掘的理论、相关技术以及数据挖掘技术在现实中的应用.论文以
设备管理位于网络管理中的最底层,属于网元层管理,对不同类型的网络设备开发专用的网管系统,可以突出设备的特性,同时更好地控制和管理网络设备,提高网络运行效率。本文旨在研究新
车牌识别系统是图像处理技术在智能交通系统中的具体应用.该论文主要围绕设计和实现一个实用的车牌识别系统,在涉及到的相关领域进行了展开之外,着重介绍了车牌识别系统中的