Web信息提取及知识发现方法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户：gratify

【摘要】

：

本文主要研究了Web信息的提取及数据库中的知识发现方法。论文的主要内容有：首先，本文广泛综合吸收了国内外有关数据挖掘(DM)与知识发现(KDD)方面的学术研究成果，并根据所研

【作者】

：

陈红叶

【机构】

：

合肥工业大学

【出处】

：

合肥工业大学

【发表日期】

：

2002年期

【关键词】

：

数据挖掘(DM) 知识发现(KDD) 信息提取 Wrapper 数据预处理分类模式粗集决策树农产品行情

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文主要研究了Web信息的提取及数据库中的知识发现方法。论文的主要内容有：首先，本文广泛综合吸收了国内外有关数据挖掘(DM)与知识发现(KDD)方面的学术研究成果，并根据所研究的课题，针对数据挖掘在Web上的应用，介绍了其基本的方法、步骤、算法以及所面临的问题等。Web作为巨大的数据源，从Web中提取知识是本文研究的一个主要问题。本文讨论了对于HTML页面，利用信息提取技术，将半结构化数据转化为结构化数据，存储于传统的数据库中，利用基于数据库的数据挖掘算法提取有用的知识，这是一种离线式Web数据挖掘方式；另一种是在线方式，将Web信息提取技术与数据挖掘算法结合为一体，直接对提取的数据进行挖掘。其次，阐述从数据库中提取有用知识的预处理过程和分类模式挖掘算法。在数据的预处理方面，主要研究粗集理论、数据聚类、概念树、语言场等预处理方法。在挖掘模型与算法的选取中，分类是一种重要的知识发现方法，它能以简洁的模型预测新到达对象的类别。主要介绍基于粗集理论的分类规则提取。此外，由于Web上的数据信息是一典型的动态数据源，本文还以分类规则挖掘为主题讨论动态数据环境下的决策树构造方法。最后，在上述理论方法研究的基础上，研究开发了农产品市场行情信息的提取与知识发现系统。

其他文献

基于Web的报表定制技术研究

随着Internet技术的不断发展,越来越多的企业利用Internet技术组建企业信息网.基于Web的企业信息系统从根本上满足了企业对信息高质量的需求,提高了企业的经济效益,为管理者

学位

报表可扩展标记语言可扩展标记语言转换XML数据传输

青鸟“网上审批”系统的研制

电子政务是当前我国信息化工作的重点。电子政务的核心问题之一是实现政府各部门行政审批程序的电子化、网络化，即网上审批。网上审批将使提高政府办公效率、优化审批流程、精

学位

面向对象模型J2EEUMLUML扩展机制网上审批软件复用

基于目录服务的校园网统一认证系统模型的研究

随着通信技术、网络技术的不断发展,网络已经成为我们学习和生活中重要的基础设施.而校园网作为学校教育信息化建设的基础,在教学、科研、管理等方面发挥着越来越重要的作用.

学位

目录服务LDAP认证协议Kerberos身份认证SASL校园网网络安全

主存数据库技术研究及一个原型系统的构造

主存数据库是数据库技术的一个分支，一般指将整个数据库存放于主存之中，通过简化操作、精简代码来缩短系统的响应时间，增加系统的吞吐量。它特别适用于一大类实时应用系统。传统

学位

主存数据库WAL乒乓检查点数据库恢复混合日志空间管理

数据挖掘技术研究及其在零售业中的应用

海量数据的存在以及从海量数据中提取决策信息的强烈需求,使得数据挖掘日益成为研究的热点.该文主要研究了数据挖掘的理论、相关技术以及数据挖掘技术在现实中的应用.论文以

学位

数据挖掘关联规则数据分类

核心路由器网络管理系统的设计及实现

设备管理位于网络管理中的最底层，属于网元层管理，对不同类型的网络设备开发专用的网管系统，可以突出设备的特性，同时更好地控制和管理网络设备，提高网络运行效率。本文旨在研究新

学位

网络管理基于Web网络管理系统嵌入式代理CORBA/JAVA

实时车牌识别系统的研究与实现

车牌识别系统是图像处理技术在智能交通系统中的具体应用.该论文主要围绕设计和实现一个实用的车牌识别系统,在涉及到的相关领域进行了展开之外,着重介绍了车牌识别系统中的

学位

图像处理边缘检测模板匹配车牌识别系统光学字符识别智能交通系统

Web信息提取及知识发现方法研究

其他学术论文