Web信息集成关键技术研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户：cart008

【摘要】

：

随着因特网的发展,Web已经成为人们获取信息的一个重要来源.如何实现Web信息的集成是当前信息领域的一个热点研究问题.本文围绕Web信息集成从Web信息提取,Web对象版本权威性

【作者】

：

周明宏

【机构】

：

中国科学院计算技术研究所

【出处】

：

中国科学院计算技术研究所

【发表日期】

：

2007年期

【关键词】

：

Web信息提取网页布局权威性计算映射调整网页结构自动生成法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着因特网的发展,Web已经成为人们获取信息的一个重要来源.如何实现Web信息的集成是当前信息领域的一个热点研究问题.本文围绕Web信息集成从Web信息提取,Web对象版本权威性和模式映射三个方面进行了深入研究. wrapper对网页结构适应性是衡量wrapper生成方法优劣的重要标准.wrapper生成方法大体上可分为三种:wrapper程序语言法、归纳学习法和自动生成法.其中自动生成法对网页结构适应性最好.这类方法利用数据记录的相似性实现信息提取.尽管当前方法从不同角度对相似性进行了阐述,但它们都将相似性解释为数据区域的相似.在此解释下,它们都采用自项向下的提取策略.该策略带来了两个附加假设,连续性假设和独立性假设.这两个假设使得wrapper只能提取平行型数据记录,不能提取相交型数据记录.我们提出了自底向上的提取策略,将相似性解释为信息点关联的相似,避免了连续性假设和独立性假设,提高wrapper页结构适应性. 当前wrapper还面临着数据记录不完整的问题.在网页中数据记录是完整的,但wrapper可能遗漏数据记录中一些重要属性.为了解决这个问题,我们提出一种交互式的wrapper生成方法.用户定义被提取数据的模式,wrapper在给定模式的指导下提取数据记录.wrapper不是通过网页结构判断数据记录是否完整,而是通过数据记录与用户给定模式的比较来判断. 实现以上方法的关键在于我们提出了基于网页布局的信息提取技术.我们通过网页的嵌套、对齐和距离等布局信息挖掘网页信息间的语义联系.为此我们定义了网页的嵌套表格模型,并在嵌套表格模型上定义了信息点的相关性以及相关性度量.最后我们通过关联的相似性提出了数据记录的优化算法.通过对大量网页的测试,实验结果表明我们提出的方法是高效可行的. Web中的数据质量良莠不齐,真实信息和虚假信息混杂,有效信息和冗余信息并存,因此如何去芜存菁是Web信息集成的一个关键问题.对此我们提出了对象版本权威性计算模型,即VersionRank模型.VersionRank模型综合考虑了一个对象在不同网页中版本权威性的相互影响以及同一网页中不同对象版本权威性的相互影响.我们给出了对象边传播因子和网页边传播因子的统计意义.实验表明通过权威性计算,我们可以得到更准确的对象版本. Web信息是动态变化的,不仅数据内容发生变化,数据模式也会变化.Web信息集成面临的一个重要问题是物理模式的动态变更造成虚拟模式和物理模式映射关系的不一致,导致应用程序不能正确访问物理数据.我们将这个问题分解为映射失效问题和映射不全问题.为了解决这两个问题,我们提出了条件依赖的理论.通过条件依赖,我们得到了映射调整算法.该算法不仅可以处理物理模式的变更还可以适当变化后处理虚拟模式的变更.我们的算法解决了映射失效和映射不全问题,而且对映射的调整是完备的.

其他文献

异构系统能效建模及资源管理方法研究

异构系统通过适度的“定制”计算、存储资源来满足计算资源需求各异的不同类型应用。与同构系统相比，异构系统具备高能效的优势。然而，相较于同构系统，异构系统结构复杂，优化空间

学位

计算机异构系统能效优化建模方法资源管理

单点登录统一认证授权管理系统的研究与实现

随着企业信息化、网络化的飞速发展,各种基于网络的应用不断扩展延伸,各种新的系统不断的被引入,使企业形成了一种多应用系统并存的局面。这给企业对这些应用系统的管理和应

学位

无线传感器网络协同感知关键技术研究

随着物联网技术的提出，以需求为导向的各类物联网应用不断出现。其中传感器网络作为物联网重要的信息感知与传输部分，是目前的研究热点。然而，传感网自身具有一些显著的特点:资

学位

无线传感器网络协同感知技术多模态数据用户需求

面向Windows环境进程可信度量技术的研究与实现

学位

基于TCL语言的网络协议测试套研究

本文主要研究了如何基于TCL语言开发脚本程序,从而对三层交换机网络协议功能进行测试。三层交换机技术的出现使IP网络成为更加经济的网络连接方式,它具备路由器所具有的路由

学位

自动化测试TCL网络协议三层交换机

基于UML的嵌入式应用软件开发方法研究

随着硬件技术的不断革新，硬件平台的处理能力不断增强，硬件成本不断下降，嵌入式软件已成为产品的数字化改造、智能化增值的关键性、带动性技术，嵌入式软件开发在软件领域的比重越

学位

嵌入式系统UML敏捷模型驱动架构动作规约语言嵌入式应用软件

面向开放文本的领域概念间层次结构抽取方法研究

随着大数据时代的来临，网络数据呈现爆炸式增长趋势。如何从海量的网络数据中快速高效获取知识信息成为了网络数据时代亟需解决的问题。在众多知识获取的方法中，构建领域知识库

学位

领域概念开放文本层次结构关系特征信息抽取

小波变换在InSAR干涉条纹图滤波中的应用

干涉合成孔径雷达(In-SAR)技术是目前遥感成像领域的一个热点。它具有覆盖面积大,空间分辨率高,高程精度高的优点,并且可以全天时、全天候的工作,是获取三维数字高程模型(DEM

学位

合成孔径干涉雷达仿真研究

InSAR是近几十年来发展起来的一项新的遥感技术。它作为传统的SAR技术和干涉技术相结合的产物,利用相干雷达信号的相位作为除幅度以外的额外信息源,能够全天时、全天候获取大

学位

面向视频编码的用户体验感知建模方法研究

随着多媒体信息处理技术的飞速发展，多媒体应用不断呈现普适化的趋势。图像和视频数据大量涌现，特别是移动互联网以及无线传感器网络越来越发达，用户对于图像和视频等视觉数据的

学位

视频编码技术用户体验感知模型建模方法视觉系统

Web信息集成关键技术研究

与本文相关的学术论文