WEB数据挖掘中XML文档的聚类研究

来源 :云南大学 | 被引量 : 0次 | 上传用户：Mickey123

【摘要】

：

当今互联网发展日益成熟，网络资源也日趋丰富。网络上大量信息以网页的形式存在，而网页标准的发展趋势是XML标准，XML文档具有半结构化，可扩展性和自描述等特点，它已经成为数据交换

【作者】

：

刘江

【机构】

：

云南大学

【出处】

：

云南大学

【发表日期】

：

2006年期

【关键词】

：

XML文档聚类算法 Web挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

当今互联网发展日益成熟，网络资源也日趋丰富。网络上大量信息以网页的形式存在，而网页标准的发展趋势是XML标准，XML文档具有半结构化，可扩展性和自描述等特点，它已经成为数据交换和存储的标准，得到广泛的推崇。在处理半结构化的XML文档或来自不同信息源的异构XML数据时，用户往往希望能发现与查询相关(但不精确匹配)的信息，XML文档聚类在这一方面提供了很大的帮助。本文正在这种情形下对XML文档聚类进行研究和比较，并提出一种基于结构相似度的XML文档的聚类算法，该方法是在根据XML文档的语义信息和结构信息计算出文档的相似度，并在此基础之上对XML文档集合进行聚类。在文中我们实现了基于加权有向边的相似度算法和聚类算法，并进行了实验，证明该方法行之有效，与同类算法相比有其优势的地方。

其他文献

民航票务信息应用系统的设计与实现

随着计算机技术和网络技术在我国民航领域的飞速发展和广泛应用，民航票务信息已经成为民航代理人和航空公司在客票销售、市场预测、客运服务等方面的重要参考内容。然而，由于民

学位

航空公司票务信息系统中间层接口技术代理人

GDIX开发环境中远程调试系统的设计与实现

随着各种嵌入式系统的应用，嵌入式领域已成为当前研究的热点之一。与嵌入式硬件相比嵌入式软件已经成为嵌入式系统发展的瓶颈。而嵌入式软件开发环境在嵌入式应用日益复杂的情

学位

嵌入式软件开发环境嵌入式软件开发环境远程调试远程调试Linux/实时应用接口Linux/实时应用接口GNU调试器GNU调试器远程过程调用远程过程调用

指纹后处理算法研究

由于指纹的唯一性和不变性,以及指纹识别技术的可行性和实用性,指纹识别已成为当前最流行、最方便、最可靠的个人身份认证技术之一。被广泛应用在考勤、银行密码箱、公安系统

学位

自动指纹识别指纹细化特征提取伪特征去除指纹中心点提取

天然地震层析成像方法研究

天然地震层析成像是研究地球的一个重要手段,尤其在研究莫霍面以下深度的地球结构方面,有着不可替代的作用。其原理主要是通过读取远震信号的 P 波初至时间,运用射线追踪的方

学位

地震层析成像ACH算法射线追踪

聚类分析在人格类型划分中的应用研究

随着心理学科学的快速发展和信息处理技术在心理学领域的应用，国内外心理学研究者和有关部门长期对大量群体实施心理测量积累了庞大的宝贵数据资料。在这些大量的数据背后隐藏

学位

数据挖掘聚类分析人格类型样本数据孤立点检测k－平均算法

基于图像监控模式下的高速公路高危边坡预警系统

随着计算机技术、多媒体技术、网络技术和通信技术的迅速发展，图像信息的应用日益广泛，图像处理在理论研究和实际应用中都取得了飞速的发展，并已广泛地应用于越来越多的科学领域

学位

边坡预警系统图像监控图像数据库高速公路图像处理

基于隐语义图谱的桌面搜索方法研究及应用

桌面搜索（或称个人信息检索）是定义在本地个人信息空间上的搜索过程，旨在帮助个人用户有效的搜索到所需要的本地资源（即文件）。近年来随着社会信息化进程的不断推进，大数据时代悄然

学位

桌面搜索隐语义建模图模型信息处理

基于Web日志的数据挖掘技术研究

随着互联网技术的飞速发展，网络正在成为人们进行信息交流和信息处理的有效平台，各种数字化的信息每天以极高的速度增长，网络上积累了海量的数据。面对如此巨大的信息量，如何发现

学位

数据挖掘Web日志聚类算法模糊聚类权值关联矩阵

自主构件的行为规约及其支撑机制在应用服务器上的设计与实现

Internet的出现使计算机软件面临的运行环境开始从静态封闭逐步走向动态开放。为了适应这一发展趋势，软件系统开始呈现出一种柔性、多目标、连续反应式的新的系统形态，我们称为

学位

自主构件自主行为规约Agent技术构件运行支撑平台应用服务器构件框架

基于MVC模式的Struts框架在稠油生产数据查询系统中的应用

随着中国石油迈向国际化的步伐进一步加快,对于石油勘探开发生产的综合数据进行信息化的统一管理势在必行。建立一个满足各级部门数据处理要求的行之有效的数据信息系统,成为

学位

稠油查询系统设计模式B/S结构

WEB数据挖掘中XML文档的聚类研究

与本文相关的学术论文