论文部分内容阅读
随着Internet的高速发展,Web信息集成系统得到应用和推广。Web信息集成系统能够提取网页中的数据,并将其集成到XML或关系数据库中,提供结构化查询、数据挖掘和其他信息服务。网页包装器是Web信息集成系统的核心模块之一,它可能因为数据源的变化而失效。由人工参与维护网页包装器是一项费时费力的工作,而且已经成为Web信息集成系统推广的瓶颈。包装器维护的自动化,成为了近年来国内外科研工作者的研究热点。
本文在深入分析国内外相关研究工作的基础上,设计了一种基于网页数据自动标识的包装器重构方法,主要包括设计了基于相似度的文本集映射算法SDM和基于文本集映射的网页自动标识算法DMAL,以及建立在DMAL算法基础上的包装器重构方法。本文设计并实现了COMMIX原型系统的包装器重构子系统,为Web信息提取、集成的自动化奠定了基础。
这种包装器重构方法的创新之处包括:
设计基于相似度的文本集映射算法SDM,利用熵增量原理描述文本集的相似度。该算法通过特征值分布的熵增量来区分不同的文本集,匹配相似的文本集。与基于概率的文本集映射算法相比较,该算法具有较高的准确率和稳定性。
设计基于文本集映射的网页自动标识算法DMAL。自动标识算法受到越来越多的关注,然而目前的方法存在种种缺陷,为了克服这些缺陷,本文设计了基于文本集映射的网页自动标识算法,实验结果表明,该算法能利用现有的全局模式和样本网页数据特性对新网页进行自动标识,具有较高的正确率和可扩展性。
设计并实现了一些优化策略:利用属性间的约束、正则表达式的应用以及数据表示方式的借鉴等方法对DMAL自动标识算法进行优化,通过优化显著提高了该算法的效率和准确性。
此方法已经在973国家重点基础研究发展规划课题的原型系统COMMIX的包装器重构子系统中实现。我们通过实验证明,该方法能够自动、准确地对失效的包装器进行重构,有很高的准确率和可扩展性。