COMMIX系统中的包装器重构子系统的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:wind1120
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的高速发展,Web信息集成系统得到应用和推广。Web信息集成系统能够提取网页中的数据,并将其集成到XML或关系数据库中,提供结构化查询、数据挖掘和其他信息服务。网页包装器是Web信息集成系统的核心模块之一,它可能因为数据源的变化而失效。由人工参与维护网页包装器是一项费时费力的工作,而且已经成为Web信息集成系统推广的瓶颈。包装器维护的自动化,成为了近年来国内外科研工作者的研究热点。 本文在深入分析国内外相关研究工作的基础上,设计了一种基于网页数据自动标识的包装器重构方法,主要包括设计了基于相似度的文本集映射算法SDM和基于文本集映射的网页自动标识算法DMAL,以及建立在DMAL算法基础上的包装器重构方法。本文设计并实现了COMMIX原型系统的包装器重构子系统,为Web信息提取、集成的自动化奠定了基础。 这种包装器重构方法的创新之处包括: 设计基于相似度的文本集映射算法SDM,利用熵增量原理描述文本集的相似度。该算法通过特征值分布的熵增量来区分不同的文本集,匹配相似的文本集。与基于概率的文本集映射算法相比较,该算法具有较高的准确率和稳定性。 设计基于文本集映射的网页自动标识算法DMAL。自动标识算法受到越来越多的关注,然而目前的方法存在种种缺陷,为了克服这些缺陷,本文设计了基于文本集映射的网页自动标识算法,实验结果表明,该算法能利用现有的全局模式和样本网页数据特性对新网页进行自动标识,具有较高的正确率和可扩展性。 设计并实现了一些优化策略:利用属性间的约束、正则表达式的应用以及数据表示方式的借鉴等方法对DMAL自动标识算法进行优化,通过优化显著提高了该算法的效率和准确性。 此方法已经在973国家重点基础研究发展规划课题的原型系统COMMIX的包装器重构子系统中实现。我们通过实验证明,该方法能够自动、准确地对失效的包装器进行重构,有很高的准确率和可扩展性。
其他文献
空间运动图像序列的增强和超分辨率重建是通过使用计算机对图像进行去噪、去模糊、目标检测、目标提取、增强、重建等处理的方法和技术,将光照不均、低分辨率的图像序列转化
随着虚拟现实技术的广泛应用,如何构造真实的三维场景更加受到人们的关注。在构造三维场景中,纹理的使用是体现真实感的一个重要手段。多分辨率纹理映射技术是三维场景浏览中常
掌纹识别技术是利用人的手掌掌纹图像进行身份认证的一种生物特征识别技术。视频掌纹识别技术作为掌纹识别发展的一个方向,具有采样简单、信息丰富的特点,是一个值得深入研究的
网格公共支撑平台使用网格技术将广域网上分散、异构、局部自治的巨大资源整合起来,作为一种网格中间件为网格应用提供一个强大的开发、运行和管理环境。信息服务是网格公共支
基于构件的软件开发是解决软件危机的一条现实有效的途径,它利用构件的可复用特性减少了软件开发中的重复劳动。对于面向对象软件系统而言,构件可以是类、类树、类簇,甚至是一个
随着无线网络的普及,基于位置的服务逐渐引起了人们的研究和应用兴趣,并且在入侵检测、家庭监护、社交网络和导航上获得了广泛的应用,但是这些应用都依赖于高精度的室内定位
随着互联网技术的快速发展,网络业务的需求日新月异,用户与数据量的快速增加,人们对数据内容本身的关注与需求愈加强烈,对传统的TCP/IP互联网架构提出巨大的挑战。为了加快数
本文结合了作战演练仿真的应用背景,探讨了军事应用背景下的大规模虚拟环境中的一些特殊问题,也围绕一般意义上的通用三维引擎所面临的关键技术做了一些工作,具体如下:场景图是三
随着社会的发展,人们对软件的要求越来越复杂。很多软件开发方法应对这样的挑战所采取的措施之一是使用软件开发工具来解决一些问题。 OMG发布的UML是一种广泛被接受的建模
随着嵌入式系统的应用越来越广泛,嵌入式系统应用程序的优化方法越来越受到关注。针对嵌入式系统的特点,如何减小应用程序代码大小也成为研究热点之一。 在分析和研究链接时