基于XML的网络信息库与网络数据挖掘研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:fazaizhaoyun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  XML(可扩展标志语言)以自身的优势逐渐赢得得了互联网的青睐,它在网络数据挖掘中有着广泛的应用前景。XML具有可扩展性、灵活性、自述性以及面向数据等特点,它克服了HTML的许多缺点,其优越性十分明显。而另一方面,由于数据挖掘的深刻性和网络信息的复杂性,从互联网上发现知识是一项极具挑战性的工作。在当前,网络数据挖掘出现了一些问题和难点,主要是半结构化数据和异构数据等问题。网络信息最大的特点就是半结构化,XML作为半结构化数据模型,为这一问题提供了解决之道。本文在参考大量国内外文献的基础上,对网络数据挖掘的研究情况进行了总结,对基于XML的网络信息库与网络数据挖掘进行了研究。在XML与网络数据挖掘相关理论基础上,探讨了XML在网络数据挖掘中的主要应用,分析了网络信息库的基本思想,论述了基于XML的网络信息库的理论、构建方法及实现过程,并探讨了基于XML网络信息库在Web文本挖掘中的应用,给出了Web文本信息库构建的实例。本文为基于XML的网络数据挖掘提供了一个思路与方法,对网络数据挖掘的理论有一定的促进作用,对网络数据挖掘系统的实现有一定的参考价值。基于XML的网络信息库主要解决了网络数据挖掘中的半结构化问题。网络信息库在Web文本挖掘中表现为Web文本信息库,这一思想应用在Web文本挖掘中有利于文本特征项的提取,对Web文本挖掘有一定的指导意义。   
其他文献
知识经济时代,知识资源是企业的核心竞争力,企业实施知识管理就是对企业知识资源的管理,分为显形知识和隐形知识。企业知识管理的目的就是实现显性知识的编码化,隐性知识显性化,再内化为企业的直接生产力。企业实施企业知识资源管理以信息和网络技术为基础。在过去的十几年里,大量的企业基于Internet 建起了企业信息管理系统。但是,随着网络技术的飞速发展,新一代的信息网格技术将会成为Internet 的发展方