元数据驱动的半结构化信息智能处理模型的研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:abcprint
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对海量的半结构化信息,如何从中发现有价值的信息或知识,对内容信息实现有效的抽取和包装,并通过数据仓库进行管理,已成为一项非常艰巨的任务,是实现基于内容的数据管理和数据仓库实用化的重要前提。面向半结构化文档的智能处理正是应这种迫切需求而产生并迅速发展起来的研究领域。虽然针对Web网页的信息抽取研究已经开展了一段时间,但面向多种数据源的通用多目标信息抽取的研究还较少;此外,面对结构松散的多实例化信息源,通过训练样本归纳得到的抽取和包装规则并不完全适用。因此,需要对现有半结构化信息挖掘规则的定义方式和实现方式进行改造。 本文的主要工作是研究半结构化数据的形式化描述方法,研究并建立同时适用于结构严密和结构松散多实例化信息源的半结构化数据处理模型。本文的研究工作从以下几个方面进行: 本文首先对半结构文档中包含的信息进行了系统分析,提出由逻辑视图、语义视图和布局/表示视图构成的统一的半结构化文档三层视图模型,分别从逻辑结构、基于语义和内容的表示,以及数据显示方式等三个不同的角度对半结构化文档进行描述。为实现半结构化文档的多视图表示,本文在对国内外相关研究及成果进行系统分析的基础上,提出了一个通用的半结构化信息智能处理模型,模型将半结构化数据的知识发现过程通过半结构化文档过滤、不同视图层次的数据挖掘、文档信息重组和知识可视化等一系列处理系统地集成在一起,实现多目标的半结构化信息处理。 为使智能处理模型具有可伸缩性和自适应性,本文提出多维元数据的数据建模思想和元数据描述语言,通过元数据信息对半结构化信息的抽取、包装逻辑以及其他与半结构化智能处理相关的业务逻辑进行控制,将传统的半结构化信息抽取和包装过程转化为元数据驱动的解释执行过程。 在对数据抽取和包装机制的研究中,本文提出从文档著作角度入手,利用半结构化文档固有的逻辑信息构造文档逻辑视图,并通过逻辑视图实现精确且可定制的语义视图包装机制;同时,提出文档逻辑视图包装与语义视图包装相结合的包装方法,即在利用逻辑视图完成文档语义视图包装的同时,通过语义视图包装过程中获得的知识修正在逻辑视图包装过程中出现的错误。 针对文档信息重组和知识可视化表示,本文着重对支持多类型显示设备的数据表示引擎的设计和实现技术进行研究。 此外,本文还对半结构化文档中经常出现的结构化资源对象(包括列表、标记化表格和非标记化表格)的模式抽取和语义包装机制进行了研究,提出并实现了相应算法。
其他文献
流量工程和网络行为学的主要目的是将业务流量在现有的网络拓扑结构上合理分配,优化网络资源的合理使用.而要达到这一目的,就需要对网络设备的性能指数进行提取和分析,从而对
针对目前探空火箭数据管理设备通用性较差的问题,以及对于航天器数据处理设备扩展性和可靠性不断增加的任务需求,设计了一种具备通用性和可扩展性的新型数据管理系统。设计使用
随着互联网技术的发展和多媒体设备的普及,人们每天在互联网上要发布、分享和传播成百万上千万的多媒体数据。相对于传统的文字媒体,多媒体技术往往能更直观而生动的表现出其想
安全存储系统为存储的数据提供保密性和完整性,防止对数据进行未经授权的访问和修改,同时也为授权用户提供了便捷的文件共享机制.安全存储在电子商务、电子政务、公共远程存
该文研究和探讨了如何使用Windows DNA来设计和实现具有良好可扩展性的药房管理系统.基于COM的组件化程序设计方法继承和发展了面向对象程序设计方法,它是提高软件质量和软件
该文首先介绍了PDM(Product Data Management)的发展过程,并重点介绍了PDM的第三代产品CPDM(collaborative Product Definition Management),PhosphorPDM系统接受协同的产品
论文在分析IP网实时教学系统需求的基础上,提出了Smart-RealClass系统的功能目标、网络模型和层次框架结构,并在其中采用了组播数据跨网段传输、镜头焦点交互和QoS控制等机制
该文在统计方法框架下主要研究汉语句法分析中存在歧义问题.为了降低问题的复杂性,提高分析的效率,该文将汉语句法歧义消解问题分解为词语边界识别问题、词性标注、词义标注
随着数字化时代的到来,办公自动化也越来越普及,作为办公自动化载体的数字纸张逐渐成为研究的热点,目前数字纸张在内容表达上已经能够基本满足办公的需求,但无纸化的梦想却一直没
人类对于计算机的应用,就是利用编写程序控制计算机的强大功能以达到自己的目的,而编译程序完成将编程语言描述翻译成机器语言的工作,起到了人类与计算机交流中的桥梁作用.该