Web Structure Mining在电子商务网站中的应用

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:sz_yaoli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要: 介绍Web结构挖掘的概念,并分析基于链接结构的两种重要的Web结构挖掘算法,最后指出其在电子商务网站的应用以提高网站的价值。
  关键词:数据挖掘;结构挖掘;网页级别;HITS
  中图分类号:TP31文献标识码:A 文章编号:1009-3044(2007)05-11215-01
  互联网信息资源越来越庞大,一方面为信息传播开辟了新的途径,另一方面也给用户的利用带来新的挑战。针对Web上的信息只有很小的一部分是相关的或有用的,而且存在大量的垃圾信息问题,人们迫切需要能从这些海量的信息中找到有用知识的工具,Web挖掘随着时代的需求出现了。
  Web挖掘指在WWW上挖掘潜在的、有用的模式及隐藏的信息过程。Web数据主要来自于三个方面:Web服务器中的日志文件、Web服务器中的其他信息以及客户的背景信息。按照对应的数据类型,Web挖掘可分为:Web内容挖掘、Web结构挖掘和Web使用挖掘(即用户访问模式挖掘)。[1]
  
  1 Web结构挖掘
  Web结构挖掘即挖掘Web潜在的链接结构模式,即通过分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式。Web结构包括不同网页之间的超链接结构和一个网页内部的可以用HTML,XML表示成的树开结构,以及文档URL中的目录路径结构等。Web页之间的超链接结构中包含了许多有用的信息,当网页A到网页B存在一个超链接时,则说明网页A的作者认为网页B的内容非常重要,且两个网页的内容具有相似的主题。如果大量的链接都指向了同一个网页,我们就认为它是一个权威页。这种思想有助于对搜索引擎的返回结果进行相关度排序,从WWW的组织结构和链接关系中推导知识。这种模式通过对Web站点的结构进行分析、变形和归纳,将Web页面进行分类,并且可以由此确定有关不同网页间的相似度和关联度信息。Web结构挖掘有助于用户定位到相关主题的权威站点,并且可以指向众多权威站点的相关主题的站点,极大的提高检索结果的质量。[2]
  
  2 Web结构挖掘算法概述
  基于超链分析的思想,Sergey Brin和Lawrence Page在1998年提出了PageRank算法,同年J. Kleinberg提出了HITS算法,其它一些学者也相继提出了另外的链接分析算法,如SALSA,PHITS,Bayesian等算法。这些算法有的已经在实际的系统中实现和使用,并且取得了良好的效果。
  2.1 PageRank算法
  PageRank算法是Web超链接结构分析中最成功的代表之一,该算法是评价网页权威性的一种重要工具。搜索引擎Google、Yahoo、Baidu都是利用该算法对检索出的大量结果进行相关度排序,将最权威的网页尽量排在前面。PageRank的发明者把引文分析思想借鉴到网络文档重要性的计算中来,通过对网络超链接结构进行研究,利用网络自身的超链接结构给所有的网页确定一个重要性的等级数,当从网页A链接到网页B时,就认为“网页A 投了网页B一票”,增加了网页B的重要性。最后根据网页的得票数评定其重要性,以此来帮助实现排序算法的优化,而这个重要性的量化指标就是PageRank值。
  根据因特网自身的性质,因为网页的发布非常自由、成本很低并缺乏控制,用一个简单的程序就可以产生大量的网页和很多链接,而且网页的链接范围领域很广,所以简单的链接数量计算并不能客观真实地反映网页的重要性,所以PageRank不仅考虑了网页引用数量,还特别考虑了网页本身的重要性,重要网页所指向的链接将大大增加被指向网页的重要性。简单地说,PageRank就是要从链接结构中获取网页的重要性。[3]
  2.2 HITS算法
  HITS算法的指导思想和PageRank是一致的,即都通过反向链接的数量和质量来确定搜索结果的排序权重。但超链接的应用存在着许多的潜在的问题,如大量的链接是为了导航或付费广告而创建的。而出于商业竞争的原因,尽管内容相关,有些网站又不会把超链接指向他们的竞争对手。HITS算法认为网页的重要性应该依赖于用户提出的查询请求。而且对每一个网页应该将其authority权重(由网页的导出链接决定)和hub权重(由网页的进入链接决定)分开来考虑,通过分析页面之间的超链接结构,可以发现以下两种类型的页面:中心网页(hub):一个指向权威页的超链接集合的Web页(如图1所示);权威网页(authority):一个被多个Hub页指向的权威的Web页(如图2所示)。
  HITS算法发现,在很多情况下,同一主题下的权威网页(authority)之间并不存在相互的链接。所以,权威网页(authority)通常都是通过中心网页(hub)发生关联的。HITS算法描述了权威网页(authority)和中心网页(hub)之间的一种依赖关系:一个好的中心网页(hub)应该指向很多好的权威性网页(authority),而一个好的权威性网页(authority)应该被很多好的中心性网页(hub)所指向。[3]
  
  3Web结构挖掘算法应用于电子商务网站
  3.1 选择链接策略
  在互联网中,最重要的就是互联互通,Web结构挖掘所有算法都将网页中的链接作为主要挖掘的对象,特别是实际应用中,大多数用户都是使用基于PageRank算法的Google、Yahoo和Baidu等搜索引擎,因此可以采取以下几种策略,以提高电子商务网站的排名。
  3.1.1 广泛链接策略
  尽可能多地让其他跟你主题相关的网站链接你,目前已成为在搜索引擎排名成功的关键性因素。有了这些网站链接你,即使不向搜索引擎提交网站,搜索引擎也自然找到你并给予好的排名。另一方面,如果网站提供与主题相关的导出链接,被搜索引擎认为有丰富的与主题相关的内容,也有利于排名。同时如果一个网页只有大量的进入链接,而缺乏导出链接,也会被搜索引擎认为是没有价值的站点,也就是说如果你的网站只有外部反向链接而没有导出链接的话,也会对你的网站在搜索结果中的表现带来负面影响。
  3.1.2 高质量链接策略
  搜索引擎在决定一个网站的排名时,不仅要对网页内容和结构进行分析,还围绕网站的链接展开分析。对网站排名致关重要的影响因素是获得尽可能多的高质量外部链接,也称导入链接。务必做到获得PageRank高并与你的主题相关或互补的网站的链接,在流量大、知名度高、频繁更新的重要网站上出现你的链接,如新闻源,与内容质量高、PageRank值上升潜力大的网站链接,与以你的网站关键词在搜索结果中排名前三页的网站进行链接。
  3.1.3 无空链接策略
  应当经常利用坏链接检查工具检查网站中是否有死链接,同时保持网页内容或链接的稳定性和持久性,如果自己网页中有链接更新时,最好能保留旧的页面并做好链接转向,以保持内容的连续性。
  3.2 构建友好的网站结构
  链接是网站的灵魂。用户通过超级链接获得丰富的网站内容,搜索引擎蜘蛛(Spider)也是沿着一个网站的页面链接层层跟踪深入,完成对该网站的信息抓取。有了合适的链接,就可以在算法中取得一个比较理想的分值,但由于数据的挖掘过程中由机器搜索引擎蜘蛛自动完成。因此还必须考虑让引擎能完整的采集到所设计的链接,这就需要构建友好的网站结构。
  3.2.1 网站结构扁平化
  网站目录结构要扁平,因为每深一级目录,PageRank降低1-2个档次。假设首页是PageRank值是3,其子目录可能PageRank值就是1了,更深可能就无法列入评级范围了。所以有必要合理安排文件目录结构,简单的网站最多呈现三个层次就可以了。
  3.2.2 表现和内容的分离
  因为挖掘引擎会更倾向于<h1><h2>……之间的内容,而不是正文。所以JavaScript和CSS要尽可能和网页分离,一方面提高代码重用度,另外一方面,由于有效内容占网页长度的百分比高,也能提高相关关键词在页面中的比重。 <br>  3.2.3 建立网站地图 <br>  基于文本的网站地图内含网站所有栏目、子栏目。网站地图的三大因素:文本、链接、关键词,都极其有利于搜索引擎抓取主要页面内容。因此,动态生成目录网站尤其需要创建网站地图。网页栏目若有所更新需要及时在网站地图上体现出来,让所有的页面都有能够快速入口:网站地图,如果首页就是用Flash或图片进入的话,无异于将搜索引擎拒之门外。 <br>   <br>  4 结束语 <br>  Web结构挖掘技术是比较成熟的技术,特别是PageRank算法已经广泛应用到各大搜索网站中,所有的结构挖掘算法都是基于网页结构中超链接的分析。通过对网站结构算法的研究,可以有效地采取应对措施,提高网站在搜索引擎中的排名,从而网站可以有效的被客户搜索。随着电子商务的迅猛发展,网站的经营者应当尽早地应用Web结构挖掘技术对电子商务网站进行优化以提高价值和知名度,实现其最大的经济效益。 <br>  参考文献: <br>  [1]高晓琴,蒋朝哲,涂瑞.等. Web使用挖掘研究[J].微计算机信息,2006,7(3):200-202. <br>  [2]陈文伟,黄金才.数据仓库与数据挖掘[M].北京:人民邮电出版社,2004. <br>  [3]黄晓斌.网络信息挖掘[M].北京: 电子工业出版社,2005. <br>  本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。 <br> </div> </section> <!-- 其他文献块 --> <section class="article-other"> <div class="article-other-header" style="color:#2162e4"><span>其他文献</span></div> <div class="article-other-content"> <div class="tit"><a href="/periodical/4c607909e36c1d805f1d812056de3d09.html" target="_blank" title="基于PB BLOB数据类型实现的位操作"> 基于PB BLOB数据类型实现的位操作 </a></div> <div class="con"> 摘要:本文利用PB BLOB可以操作二进制大对象的特点,借助PB内置函数对PB的位操作能力进行了函数封装,扩展了PB的位操作能力并给出了在图像处理和工业控制中的应用实例。  关键词:PowerBuilder;二进制大对象;位操作;图像;工业控制  中图分类号:TP311.56 文献标识码:A文章编号:1009-3044(2007)05-11195-03    1 引言  PB作为一个开发工具,一直 </div> <div class="typ"> <div class="typ-nam"> <span>期刊</span> </div> <div class="typ-con"> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/periodical/bd96bbcf7fb826b14cf6ffb0890a8e48.html" target="_blank" title="影响VPTR及虚函数表长度的因素"> 影响VPTR及虚函数表长度的因素 </a></div> <div class="con"> 摘要:虚函数是实现动态多态性的方法。包含虚函数的类定义的对象有一个虚函数表和一个指向虚函数表的指针vptr。本文探讨了影响vptr和虚函数表长度的因素。  關键词:虚函数;多态性;虚函数表;VPTR  中图分类号:TP311 文献标识码:A 文章编号:1009—3044(2007)08—20461—02 </div> <div class="typ"> <div class="typ-nam"> <span>期刊</span> </div> <div class="typ-con"> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/periodical/64e7feda68a4eb3146badbb3b35ec0b3.html" target="_blank" title="用Flash ActionScript制作《平面镶嵌》"> 用Flash ActionScript制作《平面镶嵌》 </a></div> <div class="con"> 摘要:本文针对目前中小学CAI教学软件普遍存在交互性过低问题进行了探讨,介绍了一种能在易用性与高交互性取得较好平衡的編程语言Flash ActionScript,并结合《平面镶嵌》问题对其使用方法进行了说明。  关键词:CAI教学软件;软件交互性:Flash AS  中图分类号:TP311 文献标识码:A 文章编号:1009—3044(2007)08—20566—01 </div> <div class="typ"> <div class="typ-nam"> <span>期刊</span> </div> <div class="typ-con"> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/periodical/a477a2412629ec9edb7570c0d0091d5a.html" target="_blank" title="VB中数据库通用查询程序的设计"> VB中数据库通用查询程序的设计 </a></div> <div class="con"> 摘要:在分析结构化查询语句的基础上,提出了在VB中实现通用动态查询程序的原理和方法,并给出了具体的程序代码。  关键词:VB;数据库;查询   中图分类号:TP311文献标识码:A 文章编号:1009-3044(2007)05-11204-02    1 引言  Visual Basic 6.0 作为一种简捷、系统的Windows应用程序开发工具,具有强大的数据处理能力,被广泛应用于建立各种数据库 </div> <div class="typ"> <div class="typ-nam"> <span>期刊</span> </div> <div class="typ-con"> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/periodical/fd1cd60f9bc5cc32a556dcdcdb6f4a5c.html" target="_blank" title="基于经营决策为主题的数据挖掘的应用"> 基于经营决策为主题的数据挖掘的应用 </a></div> <div class="con"> 摘要:应用ID3挖掘方法,将基于数据库的数据挖掘技术应用于企业的生产、销售实践中用决策树对产品进行定性分析,找到产品销售情况的决策信息;及用分类法对产品品种进行选择的具体过程。  关键词:数据挖掘;决策树;ID3  中图分类号:TP312文献标识码:A文章编号:1009-3044(2007)05-11198-01    1 基本定义  (1)数据挖掘  数据挖掘(Data Mining)就是从大量 </div> <div class="typ"> <div class="typ-nam"> <span>期刊</span> </div> <div class="typ-con"> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/periodical/b00cc92d072036d581a0b6883bd9f6ad.html" target="_blank" title="基于XML+DOM4J的数据库集成技术研究"> 基于XML+DOM4J的数据库集成技术研究 </a></div> <div class="con"> 摘要:如何实现数据库的集成、共享和利用,提高了信息系统的整体效能,以及解决了XML和数据库双向传输的瓶颈,成为信息支持系统的关键问题之一。该文在分析可扩展标记语言XML特点的基础上,对XML与数据库之间基于DOM模型的映射方式进行了探讨,并给出了以XML文件作为中间文件的异构数据库集成,以及XML文档和数据库之间数据传输的实现方法。  关键词:XML;数据库集成;文档对象模型;XML查询  中图分 </div> <div class="typ"> <div class="typ-nam"> <span>期刊</span> </div> <div class="typ-con"> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/periodical/13cfe0a22e6c732d4da31f16017f102a.html" target="_blank" title="基于WLAN的无线校园网技术应用初探"> 基于WLAN的无线校园网技术应用初探 </a></div> <div class="con"> 摘要:随着教育手段的革新与无线网络技术的发展,目前基于WLAN的无线校园网络构建技术已成主流,成为有线校园网网络延伸的重要手段之一。文章对无线局域网技术、无线校园网的构建做了介绍,并以淄博职业学院新校区的无线校园网建设为实例,提出了初步的设计方案。  关键词:无线局域网;WLAN;无线校园网;实现方案  中图分类号:TP393文献标识码:A 文章编号:1009-3044(2007)05-11213 </div> <div class="typ"> <div class="typ-nam"> <span>期刊</span> </div> <div class="typ-con"> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/periodical/1152c020ca7dc04b181d52c2a7444dd2.html" target="_blank" title="Access数据库加密系统的安全性及其保护措施"> Access数据库加密系统的安全性及其保护措施 </a></div> <div class="con"> 摘要:Access数据库结构简单、功能比较齐全、使用维护方便,因此,在功能能够满足要求的条件下,往往成为一些小型数据库软件的首选。但是由于数据库的加密机制非常简单,很容易破解数据库密码,安全性差。本文在分析了MS Access数据库的加密原理以及现有破解方法的基础上,给出了简便易行的保护措施。并且,用VB给出了切实可行的实现方案。应用表明,该保护措施能有效地提高数据库的安全性。  关键词:ACCE </div> <div class="typ"> <div class="typ-nam"> <span>期刊</span> </div> <div class="typ-con"> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/periodical/cc1e090f0a8fef9e005015d8346fd140.html" target="_blank" title="VB.NET中利用ADO.NET连接数据库"> VB.NET中利用ADO.NET连接数据库 </a></div> <div class="con"> 摘要:本文介绍了ADO、ADO.NET、ADO.NET 中相关类以及VB.NET中利用ADO.NET连接数据库的方法和步骤,并附加了数据库连接后的数据浏览、查询、删除、插入等操作的代码。  关键词:ADO.NET;数据适配器;数据集  中图分类号:TP311文献标识码:A文章编号:1009-3044(2007)05-11211-02    1 引言  Visual Basic.net作为应用程序的 </div> <div class="typ"> <div class="typ-nam"> <span>期刊</span> </div> <div class="typ-con"> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/periodical/a95d2ce6578b2f4410456b1ee4d18dc4.html" target="_blank" title="SQL Server数据库分类及迁移的方法"> SQL Server数据库分类及迁移的方法 </a></div> <div class="con"> 摘要:在实践中常常会遇到这样的情况:SQL Server数据库运行一段时间后,可能由于存放SQL Server数据库的硬盘空间不足或性能、质量不佳,使数据库运行效率大大下降,甚至不能正常工作。对此,最好的解决办法莫过于给数据库找个更加宽敞、安全的新硬盘空间。本文就是争对SQL Server中不同类型数据库的迁移方法进行深入探讨,使大家能更方便、高效使用SQL Server数据库。  关键词:SQL </div> <div class="typ"> <div class="typ-nam"> <span>期刊</span> </div> <div class="typ-con"> </div> </div> </div> </section> </div> </div> <!-- 右侧边栏 --> <div class="col-lg-3 col-md-3 hidden-sm hidden-xs"> <div class="content-right"> <div class="sid"> <div class="tit"> <h3>与本文相关的学术论文</h3> </div> <div class="con3"> <ul> </ul> </div> <!-- <div class="bot"> <a href="#" target="_blank"><button class="btn btn-default btn-block">更 多</button></a> </div> --> </div> <div class="sid-img-ad"> <script src=/d/js/public/new5.js></script> </div> </div> </div> </div> </section> </main> <!-- 页面底部 --> <footer class="public-footer"> <section class="top"> <div class="container"> <div class="row"> <div class="col-xs-120 gongjujianjie">期刊论文Web Structure Mining在电子商务网站中的应用发表于2007年8期电脑知识与技术作者巫满秀,本篇论文的所有权归原作者巫满秀所有,如果您对本文有版权争议,可与客服联系进行内容授权或下架。 </div> </div> </div> </section> <section class="bottom"> <div class="container friend-link"> <div class="row"> <div class="col-xs-12"> <span class="title">友情链接:</span> <a href="https://www.soolun.com/" target="_blank">搜论网</a> <a href="https://www.soolun.com/" target="_blank">论文下载</a> </div> </div> </div> <div class="container service-link"> <div class="row"> <div class="col-lg-9 col-md-9 col-sm-12 col-xs-12"> <div class="aboutus"> <a href="/about.html">关于我们</a> <a href="/about.html">联系我们</a> <a href="/about.html">广告服务</a> <a href="/about.html">版权声明</a> <a href="/about.html">新手指南</a> <a href="/about.html">网站地图</a> </div> <div class="kefuqq"> 客服qq:184688754 客服qq:184688754 </div> <div class="disclaimer"> <span>声明:本文档内容版权归属内容提供方,如果您对本文有版权争议,可与客服联系进行内容授权或下架</span><span>搜论网</span> © CopyRight 2018-2024 </div> </div> <div class="col-lg-3 col-md-3 col-sm-12 col-xs-12 wechat"> <div class="wechat-item"> <img src="/image/weixin.png" alt="微信客服" > <div class="img-name">微信客服</div> </div> <div class="wechat-item"> <img src="/image/weixin.png" alt="微信服务号"> <div class="img-name">微信服务号</div> </div> </div> </div> </div> </section> </footer> <script src="//cdn.bootcdn.net/ajax/libs/jquery/1.11.1/jquery.min.js"></script> <script src="//cdn.bootcdn.net/ajax/libs/twitter-bootstrap/3.4.1/js/bootstrap.min.js"></script> <script src="//cdn.bootcdn.net/ajax/libs/bootstrap-hover-dropdown/2.2.1/bootstrap-hover-dropdown.min.js"></script> <script src="//cdn.bootcdn.net/ajax/libs/bootstrap-select/1.13.14/js/bootstrap-select.min.js"></script> <script src="/js/js.js?v=1.0"></script> </body> </html>