【摘 要】
:
XML已成为网上数据交换和存储的标准,然而现有的XML文档模型存在很多问题.综合了数据挖掘和信息检索两方面的技术,对传统的向量空间模型加以扩展,提出一种新的基于语义和支持
【机 构】
:
哈尔滨工程大学计算机科学与技术学院
论文部分内容阅读
XML已成为网上数据交换和存储的标准,然而现有的XML文档模型存在很多问题.综合了数据挖掘和信息检索两方面的技术,对传统的向量空间模型加以扩展,提出一种新的基于语义和支持度的XML向量空间模型并给出其生成算法,该模型抽取文档集的频繁路径作为特征,然后利用XML本身的语义特性,对标签之间作ontology判断.最后,基于该模型提出一种XML近似查询算法,将文档矩阵从改进的VSM空间映射到潜在语义空间,并在转换后的空间获得近似查询结果并排序.对提出的方法进行理论分析和实验验证,得到满意的结果.
其他文献
所谓内部语言是人们运用概念进行思维的一种无形无声的内在活动方式,是简略的、压缩的,未表达出来的特殊语言。它是想的工具。而外部语言则是表达出来的语言。事实证明,学生
为评价重金属污染对长江口中华鲟幼鱼生长的影响,在长江口水域采集了日本沼虾(Macrobraohium nipponense)、中国毛虾(Acetes chinensis)、狼牙鳗虾虎鱼(Taenioides rubicundus)、矛
伟大领袖毛主席去年十月以来作了关于反击右倾翻案风的一系列重要指示,向我们提出了一系列的理论问题,比如社会主义社会有没有阶级斗争?资产阶级在哪里?为什么党内走资本主义道路
阿根廷滑柔鱼(Illex argentinus)是西南大西洋重要的经济性头足类,其中分布在阿根廷专属经济区的渔场是极为重要的作业海区,掌握其渔场时空分布有助于合理利用该资源。根据2008
为了优化海黍子(Sargassum mttticum)新生枝条生长与同步生殖的室内培养条件,以长度5cm左右的海黍子新生枝为材料,在培养箱中采用不同的温度、光照度和营养盐配比(KNO3:KH2PO4)等生
集成Internet上大量自治的、异构的数据和计算资源将是今后软件业的主要挑战之一。作为一种应用系统从位于Internet上的远程服务结点获取数据并进行数据集成处理的机制,Internet市场越来越受到业界的重
文中采用阶段并行模型,分析了并行NAS benchmarks的结构和资源需求特征,得到了其对内存、I/O及通信的时延和带宽等需求的参数值。这些量化的参数对各类并行计算机的设计和评价具有一定的参考价
文中介绍了一个多线索DBMS核心,它具有一般DBMS的基本功能,为不同的DBMS提供统一的设计环境。
区间索引是随着对约束数据库的实用化的研究而提出的。文中在Meta-树的基础上提出了DM-树和相应算法,它对区间索引保持了存储为O(n),查询I/O时间为O(logn+t/B)的性能,
超媒体文档由一系列结构化的信息组成,这些信息包含不同类型的媒体,传统的文档系统描述这些信息比较困难,HyTime标准作为SGML的一个应用不仅能够描述超媒体文档的结构,耐用能描述不同媒体之