基于扩展边集比较法的XML文档结构及语义相似性计算研究

来源 :南开大学 | 被引量 : 0次 | 上传用户：simeifang

【摘要】

：

由于有着标准化、简洁、结构严谨和可高度扩展等优点，可扩展标记语言XML在飞速发展的互联网中逐渐成为网络数据表示和交换的标准格式。现今网络上出现了大量的XML文档，这些文档

【作者】

：

杨汀

【机构】

：

南开大学

【出处】

：

南开大学

【发表日期】

：

2012年期

【关键词】

：

扩展边集比较法文档结构语义相似性可扩展标记语言聚类分析

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

由于有着标准化、简洁、结构严谨和可高度扩展等优点，可扩展标记语言XML在飞速发展的互联网中逐渐成为网络数据表示和交换的标准格式。现今网络上出现了大量的XML文档，这些文档有些被很好地组织存放在XML数据库里，有些则分散在各个站点、服务器上。怎样更好地管理这些文档或者从这些文档中发现有用的信息、知识，已经成了数据库、信息检索和数据挖掘等领域的研究热点。XML文档的相似性计算是其中的一个热点，得到了国内外众多学者的广泛研究。通过检测XML文档之间的相似性，可以对数据仓库中的XML文档进行版本控制、变化管理，可以将从不同数据源获取的文档进行数据集成、分类或者聚类，亦可以对XML检索结果进行排序等。　　与传统的文档不同，XML文档是结构化的文档，既包含文本信息，又包含结构信息。XML文档可以用树形结构表示。研究学者提出了许多方法(例如基于树的编辑距离方法，将传统的信息检索方法进行扩展的带结构信息检索模型，边集比较法，快速傅里叶变换方法等)来检测结构化文档的相似性，并取得了很大的研究成果。然而，在时间效率和精度等方面并没有做到最好，还有一些可以改进的空间。　　本文提出了一种扩展边集比较法来计算XML文档之间的相似性。此方法不仅生成父子节点之间的普通边，还生成祖先和子孙节点之间的拓扑边，给不同层和类型的边赋予不同的权值。并且定义了完全匹配，拓扑匹配和重复匹配三种匹配方式。在边集匹配过程中，算法可以检测出两条边之间是属于哪种匹配，并对每种匹配赋予不同的权值，以更合理地计算相似性。扩展边集比较法不仅可以计算XML文档的结构相似性，还可以结合语义相似性算法实现XML文档的结构和语义相似性计算。本文主要使用XML文档聚类分析实验来验证算法的有效性。实验证实扩展边集比较法能获得比现有的基于编辑距离的方法更优的聚类结果。除此之外，本文还进行了语义相似性实验以及RNA二级结构数据聚类分析实验。算法的时间复杂度为O(N2)，有着较好的运行效率。在需要快速计算XML文档的结构相似性时，可以通过为边集建立哈希表以降低算法复杂度。

其他文献

电路图自动布图的研究和系统实现

自动布图技术在航空航天等领域应用广泛，准确快速的自动布图系统可以极大的提高航天设计人员的工作效率。本文针对航天自动布图工作中实际遇到的潜通路检测问题及电缆网研制问

学位

电缆网自动布图网络树拓扑结构电路图

基于CUDA的分子动力学非键作用计算方法的研究

分子动力学(Molecular Dynamics)是在原子级模拟固态、液态物质的主要计算方法,用于研究物质微观结构、热力学性质及平衡输运性质等,广泛应用于物理科学、材料科学、生命科学

学位

GPUCUDA分子动力学非键作用并行算法

随机结构纹理图像去噪的自适应收缩方法

图像去噪是图像处理的经典主题。我们的目标是从噪声污染的图像中还原出一个干净的图像。几十年来，发表了很多处理噪声的算法，去噪性能一直稳步提高。这其中的大多数针对的是常

学位

自适应收缩算法图像去噪随机结构视觉质量

开放域问答系统答案源获取方法研究与实现

当今社会,互联网中所包含的种类繁多内容丰富的知识资源,为我们日常学习和工作中面对问题时寻求帮助和获取信息提供了很大的方便。目前的Google和百度等搜索引擎是人们从网络

学位

自动问答系统答案源获取网络爬虫网页去重信息提取DOM树

基于ZigBee的无线传感器网络网关系统研究

随着物联网技术的深入发展,无线传感器网络(Wireless Sensor Network,WSN)和Internet的互联问题逐渐凸显,如何无缝地实现这两种网络的互联互通成为应用中的技术瓶颈。由于WSN

学位

无线通信网传感器网络通信协议网关设计

单样本条件下的人脸识别算法研究

人脸识别作为生物特征识别的一个重要分支，近年来受到广大研究者的关注，取得了较快的发展。在一些实际应用中，每人只能获得一张图片作为训练样本，但大多数人脸识别方法在单个训练

学位

人脸识别单样本样本扩充非下采样contourlet变换光照不变特征

基于数据集成的基因调控网络构建

半个世纪以来，随着研究的不断深入，已有多种模型用于基因调控网络的构建，包括布尔网络模型、贝叶斯网络模型、微分方程模型等，并取得了一些成果。20世纪90年代，基因芯片等高通量生

学位

基因调控网络构建数据集成Floyd算法级联问题

全景视频增强现实系统关键技术研究

增强现实是将计算机生成的虚拟信息与真实世界的叠加,而全景视频是将拍摄到的视频拼接后可任意角度拖动观看的动态视频。在一些受到保护且不便让用户进入的场景(如文物古迹、

学位

全景视频增强现实三维注册KCF跟踪ORB特征检测

基于依存树核函数的语义角色标注研究

一直以来,自动语义分析是自然语言理解的主要目标之一,然而由于深层语义分析的复杂性,人们目前更关心浅层语义分析,一种简化的语义分析形式,它只分析与句子中谓词有关成分的

学位

语义角色标注依存句法分析卷积树核自然语言处理

基于tableau的数据记录匹配及一致性研究

数据质量已被公认为是数据管理的首要问题之一。针对数据质量管理领域的数据记录不匹配及不一致问题,本文分别从记录匹配检测及不一致修复两个角度出发,提出了基于CON模型的

学位

数据质量记录匹配不一致数据库tableau分支封闭值

基于扩展边集比较法的XML文档结构及语义相似性计算研究

与本文相关的学术论文