论文部分内容阅读
XML(可扩展标志语言)以自身的优势逐渐赢得得了互联网的青睐,它在网络数据挖掘中有着广泛的应用前景。XML具有可扩展性、灵活性、自述性以及面向数据等特点,它克服了HTML的许多缺点,其优越性十分明显。而另一方面,由于数据挖掘的深刻性和网络信息的复杂性,从互联网上发现知识是一项极具挑战性的工作。在当前,网络数据挖掘出现了一些问题和难点,主要是半结构化数据和异构数据等问题。网络信息最大的特点就是半结构化,XML作为半结构化数据模型,为这一问题提供了解决之道。本文在参考大量国内外文献的基础上,对网络数据挖掘的研究情况进行了总结,对基于XML的网络信息库与网络数据挖掘进行了研究。在XML与网络数据挖掘相关理论基础上,探讨了XML在网络数据挖掘中的主要应用,分析了网络信息库的基本思想,论述了基于XML的网络信息库的理论、构建方法及实现过程,并探讨了基于XML网络信息库在Web文本挖掘中的应用,给出了Web文本信息库构建的实例。本文为基于XML的网络数据挖掘提供了一个思路与方法,对网络数据挖掘的理论有一定的促进作用,对网络数据挖掘系统的实现有一定的参考价值。基于XML的网络信息库主要解决了网络数据挖掘中的半结构化问题。网络信息库在Web文本挖掘中表现为Web文本信息库,这一思想应用在Web文本挖掘中有利于文本特征项的提取,对Web文本挖掘有一定的指导意义。