论文部分内容阅读
当今互联网发展日益成熟,网络资源也日趋丰富。网络上大量信息以网页的形式存在,而网页标准的发展趋势是XML标准,XML文档具有半结构化,可扩展性和自描述等特点,它已经成为数据交换和存储的标准,得到广泛的推崇。
在处理半结构化的XML文档或来自不同信息源的异构XML数据时,用户往往希望能发现与查询相关(但不精确匹配)的信息,XML文档聚类在这一方面提供了很大的帮助。本文正在这种情形下对XML文档聚类进行研究和比较,并提出一种基于结构相似度的XML文档的聚类算法,该方法是在根据XML文档的语义信息和结构信息计算出文档的相似度,并在此基础之上对XML文档集合进行聚类。在文中我们实现了基于加权有向边的相似度算法和聚类算法,并进行了实验,证明该方法行之有效,与同类算法相比有其优势的地方。