基于XML的网络信息库与网络数据挖掘研究

论文部分内容阅读

　　XML(可扩展标志语言)以自身的优势逐渐赢得得了互联网的青睐，它在网络数据挖掘中有着广泛的应用前景。XML具有可扩展性、灵活性、自述性以及面向数据等特点，它克服了HTML的许多缺点，其优越性十分明显。而另一方面，由于数据挖掘的深刻性和网络信息的复杂性，从互联网上发现知识是一项极具挑战性的工作。在当前，网络数据挖掘出现了一些问题和难点，主要是半结构化数据和异构数据等问题。网络信息最大的特点就是半结构化，XML作为半结构化数据模型，为这一问题提供了解决之道。本文在参考大量国内外文献的基础上，对网络数据挖掘的研究情况进行了总结，对基于XML的网络信息库与网络数据挖掘进行了研究。在XML与网络数据挖掘相关理论基础上，探讨了XML在网络数据挖掘中的主要应用，分析了网络信息库的基本思想，论述了基于XML的网络信息库的理论、构建方法及实现过程，并探讨了基于XML网络信息库在Web文本挖掘中的应用，给出了Web文本信息库构建的实例。本文为基于XML的网络数据挖掘提供了一个思路与方法，对网络数据挖掘的理论有一定的促进作用，对网络数据挖掘系统的实现有一定的参考价值。基于XML的网络信息库主要解决了网络数据挖掘中的半结构化问题。网络信息库在Web文本挖掘中表现为Web文本信息库，这一思想应用在Web文本挖掘中有利于文本特征项的提取，对Web文本挖掘有一定的指导意义。　　

其他学术论文