网页智能搜索数据挖掘的主要任务

来源 :电脑学习 | 被引量 : 0次 | 上传用户:pplhome
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:介绍了用于网页智能搜索的数据挖掘技术以及如何创建多维的网页语义数据库。 
  关键词:智能搜索 语义结构 数据挖掘
  
  网页搜索引擎的基础是基于关键字的索引,而将数据挖掘用于网页分类则是对基于关键字索引的一个有力的补充。数据挖掘可以帮助网页搜索引擎发现更高质量的网页,并且提高网页点击流的分析质量。然而,为了使网页发挥它的最大潜能,我们必须改进它的服务,使它更加方便理解,并且增加它的可用性。
  
  1 设计难点
  
  如何设计智能化的网页是主要难题之一,需要解决两个基本问题:在抽象层上,用来访问网页上的海量数据的传统模式面向的是基于文本、基于关键字的网页视图,而我们认为面向数据的网页视图将更加有效;第二:在服务层次上,我们必须用能够遍历整个网络的更加全面的访问模式来取代现有的原始的访问模式。
  
  2 网页数据挖掘工作任务
  
  如果我们想要有效地利用数据挖掘技术来开发网页搜索智能,就必须完成如下几个工作任务。
  (1)对网页搜索引擎数据进行数据挖掘
  基于索引的网页搜索引擎在网络上运行,对网页创建索引,创建并且存储大量的基于关键字的索引,以帮助定位包含某些特定关键字的网页。
  基于关键字的搜索引擎存在如下二个缺陷:第一,一个范围稍微大一些的主题会包含数十万个结果文档。这样搜索引擎会返回大量的文档,其中很多与主题关系不大,包含的有用信息很少;第二,很多高度相关的文档可能并不显式地包含关键字,这种现象可能是一词多义引起的。
  基于以上这些因素,可以把数据挖掘和网页搜索引擎结合起来,这样能提高网页搜索质量。网页链接和网页动态分析为如何发现高质量的文档提供了基础。
  (2)分析网页链接结构
  权威页面的秘密隐藏在网页链接中。这些超链接包含了大量的最新的人们对网页所做的标记,它们能够帮助网页搜索自动地找到权威的页面,当一个网页的作者创建了一个指向另一个页面的超链接的时候,这一行为可以认为是对另一个页面的认可。如果不同的作者都认可同一个页面,这就表示这个页面很重要,这样自然就产生了权威的页面。所以说网页的超链接数据提供了一个非常丰富的用于网页搜索数据挖掘的数据源。然而不是每个超链接都表示对该页面的认可,页面作者有时候会出于其它的目的创建超链接,例如做广告,但是,从整体上来说,如果大多数的超链接都代表一种认可的话,那么集体的意见还是能占主流。另外属于商业性质或者带有竞争目的的网页很少会有指向其竞争对手的超链接。权威的页面也很少会有说明式描述。
  网络链接结构的这些特点,研究者们开始考虑另一种重要的网页类型:Hub页面。Hub页面指的是一组网页,它们包含了指向一组权威网页的超链接。也许这些Hub页面并不是很重要,也只有很少几个超链接引用到它们,然而它们却提供了指向有关于某个主题的一组关键网站的链接。
  通常,一个好的Hub网页指向很多好的权威的网页,反过来,一个网页被多个Hub网页引用,则可以认为它是一个好的权威网页。Hub页面和权威页面之间这种相互确认的关系可以帮助用户对权威网页进行数据挖掘,从而自动地发现高质量的网页结构和资源。
  研究者们依据这种辨别权威网页和Hub网页的方法开发了PageRankPl和HITSl31算法。一些商业网页搜索引擎,例如Coogle,就是用这些方法构建的。通过分析网页链接和上下文信息,这些系统能够产生更高质量的搜索结果。
  (3)自动给网页文档分类
  类,我们还是希望能够自动进行分类。典型的分类方法利用正面和反面的例子作为训练集,然后给每个文档分配一个类别标签,这些标签来自于基于预先分类的文档示例的一组预定义的主题分类。
  与其他的分类模式不同,自动分类模式通常不能定义反面的示例。如,我们只知道某个预分类好的文档属于哪个类别,但不知道某个类别不包含哪些文档。因此,网页分类模式通常不需要显式地标注反面的示例。
  (4)网页语义结构和页面内容数据挖掘
  目前,对自然语言进行自动解析还存在种种限制,全自动地抽取网页结构和语义内容还是很困难的,然而,半自动的方法已经能够识别大部分的网页语义结构。专家可能还需要定义一种特定的页面类型包含哪些类型的结构和语义内容。接着,页面结构抽取系统就可以分析网页看看它的一个片断的内容是否能够套用某个语义结构。开发者还可以测试用户反馈来提高训练和测试的过程并且改进所抽取的网页结构和语义内容的质量。
  (5)网页动态性数据挖掘
  网页数据挖掘也能够发现网页的动态性一网页的内容、结构和访问方式如何发生变化。存储与网页搜索数据挖掘参数相关的历史信息能够帮助发现网页内容和链接的变化。我们可以比较不同时间的镜像来发现网页有哪些更新。与关系数据库系统不同,网页涉及面很广,存储了海量的信息,基本不可能系统地存储历史镜像或者是更新日志。这些限制使得发现网页的动态变化几乎不可行。而另一方面,对网页访问活动进行数据挖掘则是可行的,而且在很多应用中,它也是有用的。
  有了这项技术,用户可以对网页的日志记录进行数据挖掘,从而发现网页访问模式。分析网页日志记录中的规律性可以提高互联网信息服务质量,并帮助把这些信息传递到终端用户,改善网页服务器系统的性能,并且识别出电子商务潜在的客户。
  研究者们已经利用这些网页日志文件来分析系统性能,通过网页高速缓冲、网页预取和交换来改进系统设计,确定网页吞吐量,评估用户对网站设计的认可度。
  网页日志分析还可以帮助为每个用户构建可定制的网页服务。由于网页日志数据提供了关于某些特定网页的流行程度和访问方法的信息,这些信息可以和网页内容和链接结构信息结合起来,对它们进行数据挖掘,能够帮助给网页定级、给网页文档分类,并构建一个多层次的网页信息库。
  (6)创建多层次、多维的网页
  通过如下三个主要步骤来创建并且使用多维网页:
  第一步,系统分析一组网页,包括对网页内容、结构、链接和使用模式的分析,进行分析的目的是:将一组高度相关的本地页面组成一个集群,称为语义网页;如果一个单独的网页组成一个独立的集群,则把这一个网页作为语义网页。分析完成后,会为每个语义网页产生一个描述符,包含了创建网页目录时需要用到的一组关键的特性。
  第二步,基于专家提供的本体和网页语义描述符数据库,构造一个基于语义的、自适应的、多层次的多维的网页信息目录。可以利用这个目录系统来提供查询和信息服务、信息分析和数据挖掘,构建一个多层次的网页信息库来方便互联网上的资源发现,多维分析和数据挖掘。
  
  3 结束语
  
  网页智能搜索的数据挖掘将成为网页技术的一个重要研究方向,全面的利用网络上的海量信息,才能把网页变成我们很容易共享的更丰富、更友好也更智能的数据源。
其他文献
本文介绍了通过Authorware7.0来制作右键弹出式菜单,利用Authorware外部扩展函数,对Authorware中的菜单进行改进。
介绍了一种等值线数字化及简洁有效的保真方法。
通过回顾美国棉花产业政策经历的传统政策、政策变革和新政策的调整三个阶段,分析了美国棉花产业政策的特点,揭示产生的一系列有效调控效应,总结出了有益的启示与借鉴。
2005年,农三师四十五团引进试验、示范杂交棉,体现出了高产、优质及易管理的优势,推广面积逐年扩大。2008年杂交棉种植面积达到了4100hm^2,占播种面积的33.4%。其中,中棉所56为205hm
介绍了ASP网络编程技米。以及ASP通过ADO技米访问后台VFP数据库的数据存取技米.并通过运用ASP网络编程技术开发VFP试趣库在线考核系统的实例.进一步说明了ASP网络编程技米和ADO
针对一类具有相似需求的电子政务软件项目,提出基于需求表的软件开发自动化方法,设计了一种能描述项目需求的表结构.开发的软件能依据需求表自动生成软件界面、创建数据库结构、
利用天顶被动DOAS(Differential Optical Absorption Spectroscopy)和主动长程DOAS系统分别反演出2007年93 d的对流层NO2垂直柱密度和近地面NO2的平均浓度.近地面NO2日均浓度CS
基于机器视觉测量原理 ,针对我国造纸原木枝桠材多的特点 ,采用结构光方法 ,对运动状态下单根原木体积测量的方法和系统进行了研究开发 ,实现了原木体积的非接触在线测量
提出了串行通信的实现方法。
LED热阻的测量是LED应用到照明领域中的重要课题.LED正向偏压关于电流阶跃的响应曲线包含了大量LED系统热阻热容的结构信息.通过对LED施加电流阶跃后电压响应曲线的测量和简