WEB数据挖掘中XML文档的聚类研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:Mickey123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今互联网发展日益成熟,网络资源也日趋丰富。网络上大量信息以网页的形式存在,而网页标准的发展趋势是XML标准,XML文档具有半结构化,可扩展性和自描述等特点,它已经成为数据交换和存储的标准,得到广泛的推崇。 在处理半结构化的XML文档或来自不同信息源的异构XML数据时,用户往往希望能发现与查询相关(但不精确匹配)的信息,XML文档聚类在这一方面提供了很大的帮助。本文正在这种情形下对XML文档聚类进行研究和比较,并提出一种基于结构相似度的XML文档的聚类算法,该方法是在根据XML文档的语义信息和结构信息计算出文档的相似度,并在此基础之上对XML文档集合进行聚类。在文中我们实现了基于加权有向边的相似度算法和聚类算法,并进行了实验,证明该方法行之有效,与同类算法相比有其优势的地方。
其他文献
随着计算机技术和网络技术在我国民航领域的飞速发展和广泛应用,民航票务信息已经成为民航代理人和航空公司在客票销售、市场预测、客运服务等方面的重要参考内容。然而,由于民
随着各种嵌入式系统的应用,嵌入式领域已成为当前研究的热点之一。与嵌入式硬件相比嵌入式软件已经成为嵌入式系统发展的瓶颈。而嵌入式软件开发环境在嵌入式应用日益复杂的情
由于指纹的唯一性和不变性,以及指纹识别技术的可行性和实用性,指纹识别已成为当前最流行、最方便、最可靠的个人身份认证技术之一。被广泛应用在考勤、银行密码箱、公安系统
天然地震层析成像是研究地球的一个重要手段,尤其在研究莫霍面以下深度的地球结构方面,有着不可替代的作用。其原理主要是通过读取远震信号的 P 波初至时间,运用射线追踪的方
随着心理学科学的快速发展和信息处理技术在心理学领域的应用,国内外心理学研究者和有关部门长期对大量群体实施心理测量积累了庞大的宝贵数据资料。在这些大量的数据背后隐藏
随着计算机技术、多媒体技术、网络技术和通信技术的迅速发展,图像信息的应用日益广泛,图像处理在理论研究和实际应用中都取得了飞速的发展,并已广泛地应用于越来越多的科学领域
桌面搜索(或称个人信息检索)是定义在本地个人信息空间上的搜索过程,旨在帮助个人用户有效的搜索到所需要的本地资源(即文件)。近年来随着社会信息化进程的不断推进,大数据时代悄然
随着互联网技术的飞速发展,网络正在成为人们进行信息交流和信息处理的有效平台,各种数字化的信息每天以极高的速度增长,网络上积累了海量的数据。面对如此巨大的信息量,如何发现
Internet的出现使计算机软件面临的运行环境开始从静态封闭逐步走向动态开放。为了适应这一发展趋势,软件系统开始呈现出一种柔性、多目标、连续反应式的新的系统形态,我们称为
随着中国石油迈向国际化的步伐进一步加快,对于石油勘探开发生产的综合数据进行信息化的统一管理势在必行。建立一个满足各级部门数据处理要求的行之有效的数据信息系统,成为