论文部分内容阅读
[摘要]web上有海量的数据信息,怎样对这些数据进行复杂的应用成了现今数据库技术的研究热点。数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术的最重要的应用。论述web数据挖掘的基本概述,基本原理,然后讨论web数据挖掘的实现,最后对web数据挖掘的应用进行阐述。
[关键词]数据挖掘 web 应用
中图分类号:TP3 文献标识码:A 文章编号:1671-7597(2008)1120071-01
一、引言
在网络环境下,人们可以借助互联网上丰富的信息资源、功能强大的搜索引擎和快捷的传送手段,使文献资料的搜集和获取变得十分容易,然而在使用中,人们也发现要准确、快速地查找自己所需的信息却是越来越困难。Web数据挖掘应运而生,web挖掘指使用数据挖掘技术在www数据中发现潜在的、有用的模式或信息。web挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等,数据挖掘技术不仅能够对过去的数据进行查询和遍历,并且能够找出数据间的潜在联系,从而促进信息的传递。他使数据库技术进入一个更高的阶段。
二、web数据挖掘概述和基本原理
(一)web数据挖掘概念。web数据挖掘是一项综合技术,是从www资源上抽取信息(或知识)的过程,是对web资源中蕴涵的、未知的、有潜在应用价值的模式的提取。他反复使用多种数据挖掘算法,从观测数据中确定模式或合理模型,也是将数据挖掘技术和理论应用于对www资源进行挖掘的一个新兴的研究领域。 web数据挖掘从数据挖掘发展而来,都是在分析大量数据的基础上,做出归纳性的推理,预测客户的行为,帮助企业的决策者调整市场策略、减少风险并做出正确决策的过程。web数 据挖掘可以在很多方面发挥作用,如对搜索引擎的结构进行挖掘,确定权威页面, web文档分类、web log挖掘、智能查询、建立MetaWeb数据仓库等。
(二)web数据挖掘的分类。根据挖掘的对象不同,web数据挖掘可以分为Web内容挖掘(Web content mining)、Web结构挖掘(Web structure mining)以及Web使用记录的挖掘(Web usage mining)。
(三)web数据挖掘中主要技术。Web数据挖掘中常用的技术有Web使用的特有的路径分析技术,数据挖掘领域常用的关联规则、序列模式、分类聚类技术等。
(四)web数据挖掘的基本原理。web数据挖掘的基本原理:目标数据集就是根据用户要求,从web资源中提取的相关数据,web数据挖掘主要从这些数据通信中进行数据提取;预处理是从目标数据集中除去明显错误的数据和冗余的数据,进一步精简所选数据的有效部分,并将数据转换成有效形式,以使数据开采算法(包括选取合适的模型和参数)寻求感兴趣的模型,并用一定的方法表达成某种易于理解的形式;模式分析是对发现的模式进行解释和评估,必要时需返回前面处理中的某些步骤以反复提取,最后将发现的知识以能理解的方式提供给用户。
三、Web数据挖掘的实现
Web上有海量的数据信息,面对Web的数据挖掘是一项复杂的技术,面向Web的数据挖掘成了一个难以解决的问题。由于扩展标记语言XML(Extensible
Markup Language)能够使不同来源的结构化数据很容易地结合在一起,因而使搜索多样、不兼容的数据库成为可能,XML的出现为解决Web数据挖掘的难题带来了机会。
与传统数据和数据仓库相比,Web上的信息是非结构化或半结构化的、动态的、并且是容易造成混淆的,所以很难直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理。典型Web挖掘的处理流程如下:
1.查找资源:任务是从目标Web文档中得到数据,值得注意的是有时信息资源不仅限于在线Web文档,还包括电子邮件、电子文档、新闻组,或者网站的日志数据甚至是通过Web形成的交易数据库中的数据。2.信息选择和预处理:任务是从取得的Web资源中剔除无用信息和将信息进行必要的整理。例如从Web文档中自动去除广告连接、去除多余格式标记、自动识别段落或者字段并将数据组织成规整的逻辑形式甚至是关系表。3.模式发现:自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。4.模式分析:验证、解释上一步骤产生的模式。可以是机器自动完成,也可以是与分析人员进行交互来完成。
四、数据挖掘基于web的应用
Web数据挖掘已广泛地应用于金融业、电力、电信、科研、制造业、零售以及医疗服务中,对他的应用和研究正在成为一个热点。web数据挖掘的应用前景主要表现在五个方面。
(一)电子商务。运用网络挖掘技术能够从服务器和浏览器端日志记录中自动发现隐藏在数据中的模式信息,了解系统的访问模式以及用户的行为模式,从而做出预测性分析。例如通过评价用户对某一 信息资源浏览所花的时间,可以判断出用户对资源兴趣如何等。
(二)优化Web站点。通过对网站内容的挖掘,可以有效地组织网站信息,例如通过对用户访问日志记录信息的挖掘,把握用户的兴趣,有助于开展网站信息推送服务以及个人信息的定制服务。以用户需求为方向,针对用户设计个性化网站,强调信息个性化使得用户能以自己的方式来访问网站。
(三)搜索引擎。用搜索引擎进行网络信息挖掘的最大特色体现在他所采用的对网页链接信息的挖掘技术上。通过对网页内容挖掘,可以实现对网页的聚类、分类,实现网络信息的分类浏览与检索;运用网络内容挖掘技术改进关键词加权算法,提高网络信息的标引准确度,从而改善检索效果。
(四)可以实现系统改进。Web服务(数据库、网络等)的性能和其他服务质量是衡量用户满意度的关键指标,Web用法挖掘可以通过用户的拥塞记录发现站点的性能瓶颈,以提示站点管理者改进Web缓存策略、网络传输策略、流量负载平衡机制和数据的分布策略。此外,可以通过分析网络的非法入侵数据找到系统弱点,提高站点安全性,这在电子商务环境下尤为重要。
(五)科研以及数字图书馆。数据挖掘为高校学术研究深入提取网络各种数据资源提供了可能。高校数字网上图书馆就是要寻求一种有效的信息组织、管理方式,并对相关信息进行深层的加工和处理,提供多层次的、智能的信息服务和全方位的知识服务,提供经过加工、分析综合等处理的高附加值的信息产品和知识产品。Web数据挖掘技术是解决这一问题的有效途径。它可以直接用于挖掘文档的内容,或在其他工具搜索的基础上进一步进行处理,得到更为精确和有用的信息。数字图书馆利用Web数据挖掘,可以对网络中的重要信息资源进行有效的导航和整合。
数据挖掘在高校教研的价值数据获取应用方面,主要体现在数字图书馆的信息化上。表现为:指导数字图书馆采集各种信息数据、有助于完善数字图书馆栏目结构布局、实现数字图书馆提供个性化服务。
五、结束语
总之,本文探讨了基于web的数据挖掘的概念、基本原理、实现以及其目前的主要应用。如何进一步发展web数据挖掘,充分高效的利用web各种资源,需要进行更加深入的研究。
参考文献:
[1]韩家炜、孟小峰、王静、李盛恩,Web挖掘研究[J].计算机研究与发展. 2001.(04).
[2]钱小军,Web文本挖掘技术研究及其实现[D].中国优秀博硕士学位论文全文数据库(硕士).2002.(02).
[3]王丽娜,WEB日志挖掘的研究和实现[D].郑州大学.2005.
[关键词]数据挖掘 web 应用
中图分类号:TP3 文献标识码:A 文章编号:1671-7597(2008)1120071-01
一、引言
在网络环境下,人们可以借助互联网上丰富的信息资源、功能强大的搜索引擎和快捷的传送手段,使文献资料的搜集和获取变得十分容易,然而在使用中,人们也发现要准确、快速地查找自己所需的信息却是越来越困难。Web数据挖掘应运而生,web挖掘指使用数据挖掘技术在www数据中发现潜在的、有用的模式或信息。web挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等,数据挖掘技术不仅能够对过去的数据进行查询和遍历,并且能够找出数据间的潜在联系,从而促进信息的传递。他使数据库技术进入一个更高的阶段。
二、web数据挖掘概述和基本原理
(一)web数据挖掘概念。web数据挖掘是一项综合技术,是从www资源上抽取信息(或知识)的过程,是对web资源中蕴涵的、未知的、有潜在应用价值的模式的提取。他反复使用多种数据挖掘算法,从观测数据中确定模式或合理模型,也是将数据挖掘技术和理论应用于对www资源进行挖掘的一个新兴的研究领域。 web数据挖掘从数据挖掘发展而来,都是在分析大量数据的基础上,做出归纳性的推理,预测客户的行为,帮助企业的决策者调整市场策略、减少风险并做出正确决策的过程。web数 据挖掘可以在很多方面发挥作用,如对搜索引擎的结构进行挖掘,确定权威页面, web文档分类、web log挖掘、智能查询、建立MetaWeb数据仓库等。
(二)web数据挖掘的分类。根据挖掘的对象不同,web数据挖掘可以分为Web内容挖掘(Web content mining)、Web结构挖掘(Web structure mining)以及Web使用记录的挖掘(Web usage mining)。
(三)web数据挖掘中主要技术。Web数据挖掘中常用的技术有Web使用的特有的路径分析技术,数据挖掘领域常用的关联规则、序列模式、分类聚类技术等。
(四)web数据挖掘的基本原理。web数据挖掘的基本原理:目标数据集就是根据用户要求,从web资源中提取的相关数据,web数据挖掘主要从这些数据通信中进行数据提取;预处理是从目标数据集中除去明显错误的数据和冗余的数据,进一步精简所选数据的有效部分,并将数据转换成有效形式,以使数据开采算法(包括选取合适的模型和参数)寻求感兴趣的模型,并用一定的方法表达成某种易于理解的形式;模式分析是对发现的模式进行解释和评估,必要时需返回前面处理中的某些步骤以反复提取,最后将发现的知识以能理解的方式提供给用户。
三、Web数据挖掘的实现
Web上有海量的数据信息,面对Web的数据挖掘是一项复杂的技术,面向Web的数据挖掘成了一个难以解决的问题。由于扩展标记语言XML(Extensible
Markup Language)能够使不同来源的结构化数据很容易地结合在一起,因而使搜索多样、不兼容的数据库成为可能,XML的出现为解决Web数据挖掘的难题带来了机会。
与传统数据和数据仓库相比,Web上的信息是非结构化或半结构化的、动态的、并且是容易造成混淆的,所以很难直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理。典型Web挖掘的处理流程如下:
1.查找资源:任务是从目标Web文档中得到数据,值得注意的是有时信息资源不仅限于在线Web文档,还包括电子邮件、电子文档、新闻组,或者网站的日志数据甚至是通过Web形成的交易数据库中的数据。2.信息选择和预处理:任务是从取得的Web资源中剔除无用信息和将信息进行必要的整理。例如从Web文档中自动去除广告连接、去除多余格式标记、自动识别段落或者字段并将数据组织成规整的逻辑形式甚至是关系表。3.模式发现:自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。4.模式分析:验证、解释上一步骤产生的模式。可以是机器自动完成,也可以是与分析人员进行交互来完成。
四、数据挖掘基于web的应用
Web数据挖掘已广泛地应用于金融业、电力、电信、科研、制造业、零售以及医疗服务中,对他的应用和研究正在成为一个热点。web数据挖掘的应用前景主要表现在五个方面。
(一)电子商务。运用网络挖掘技术能够从服务器和浏览器端日志记录中自动发现隐藏在数据中的模式信息,了解系统的访问模式以及用户的行为模式,从而做出预测性分析。例如通过评价用户对某一 信息资源浏览所花的时间,可以判断出用户对资源兴趣如何等。
(二)优化Web站点。通过对网站内容的挖掘,可以有效地组织网站信息,例如通过对用户访问日志记录信息的挖掘,把握用户的兴趣,有助于开展网站信息推送服务以及个人信息的定制服务。以用户需求为方向,针对用户设计个性化网站,强调信息个性化使得用户能以自己的方式来访问网站。
(三)搜索引擎。用搜索引擎进行网络信息挖掘的最大特色体现在他所采用的对网页链接信息的挖掘技术上。通过对网页内容挖掘,可以实现对网页的聚类、分类,实现网络信息的分类浏览与检索;运用网络内容挖掘技术改进关键词加权算法,提高网络信息的标引准确度,从而改善检索效果。
(四)可以实现系统改进。Web服务(数据库、网络等)的性能和其他服务质量是衡量用户满意度的关键指标,Web用法挖掘可以通过用户的拥塞记录发现站点的性能瓶颈,以提示站点管理者改进Web缓存策略、网络传输策略、流量负载平衡机制和数据的分布策略。此外,可以通过分析网络的非法入侵数据找到系统弱点,提高站点安全性,这在电子商务环境下尤为重要。
(五)科研以及数字图书馆。数据挖掘为高校学术研究深入提取网络各种数据资源提供了可能。高校数字网上图书馆就是要寻求一种有效的信息组织、管理方式,并对相关信息进行深层的加工和处理,提供多层次的、智能的信息服务和全方位的知识服务,提供经过加工、分析综合等处理的高附加值的信息产品和知识产品。Web数据挖掘技术是解决这一问题的有效途径。它可以直接用于挖掘文档的内容,或在其他工具搜索的基础上进一步进行处理,得到更为精确和有用的信息。数字图书馆利用Web数据挖掘,可以对网络中的重要信息资源进行有效的导航和整合。
数据挖掘在高校教研的价值数据获取应用方面,主要体现在数字图书馆的信息化上。表现为:指导数字图书馆采集各种信息数据、有助于完善数字图书馆栏目结构布局、实现数字图书馆提供个性化服务。
五、结束语
总之,本文探讨了基于web的数据挖掘的概念、基本原理、实现以及其目前的主要应用。如何进一步发展web数据挖掘,充分高效的利用web各种资源,需要进行更加深入的研究。
参考文献:
[1]韩家炜、孟小峰、王静、李盛恩,Web挖掘研究[J].计算机研究与发展. 2001.(04).
[2]钱小军,Web文本挖掘技术研究及其实现[D].中国优秀博硕士学位论文全文数据库(硕士).2002.(02).
[3]王丽娜,WEB日志挖掘的研究和实现[D].郑州大学.2005.