基于规则的HTML文档元数据提取

来源 :南京大学 | 被引量 : 0次 | 上传用户:usrijl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何帮助用户快速、高效地从万维网(WorldWideWeb,简称Web)海量的信息资源中寻找到自己满意的信息,已成为迫切需要解决的问题。目前的Web信息检索系统,诸如搜索引擎等,对于一项查询请求,往往返回成千上万的结果,其中却只有一小部分真正为用户所需要。究其原因,是由于对信息资源的特征获取较少,无法提供多角度、多层次的查询机制。当前的搜索引擎主要采用关键字查询方式,而关键字无法全面、准确地刻画用户的查询请求,导致查询效果不佳。 元数据描述了Web信息资源的内容特征和其他属性信息,利用元数据,可以提供多样化的查询手段、实现精确的信息检索。不仅如此,元数据还是构建其他高质量、个性化信息服务系统的基础。近年来的发展预示,元数据将为有效利用Web信息资源、扩展深化Web应用服务开辟一条新途径。 本文研究如何从HTML文档中提取该文档的元数据,HTML文档是目前Web网页的主要形式。由于HTML文档元数据大多蕴涵于文档正文中,无明显格式信息,因此只能依据统计规律实现提取。本文首先设计了一套适合人工书写的提取规则,用于刻画元数据的分布特征和提取方法。我们给出了规则的语法语义以及规则库的设计,并将其实现为一个原型系统MEDES(MEtaDataExtractingSystem),进行HTML文档元数据提取。实验证实了该方法的可行性,MEDES提取的元数据具有较高的准确率。 在使用人工书写的规则实现元数据提取的基础上,我们借鉴了信息抽取(InformationExtraction)领域的工作,针对元数据的分布特点,采用监督学习的方法,从训练样本集上自动规约提取规则。针对自动规约的需要,我们重新设计了提取规则,新规则与原来的规则具有相当的表达能力,但在语法形式上和文档片断接近,更适合自动生成。文中给出了详细的规约算法:首先将样本解析为词牌序列,然后针对每个训练样本生成完全正确的最特殊的规则,最后对规则进行泛化,以增强其预测未见样本的能力,泛化既包括对单个词牌的特征抽象,也包括对词牌序列多样性的抽象。我们扩展了MEDES系统,对规约算法予以了实现。虽然目前通过自动规约生成规则,在准确率上仍低于人工书写的规则,但由于其无需人工分析、总结元数据分布规律,适应了Web文档海量、动态、多样、非结构化的特点,因而具有一定的应用价值,值得进一步研究、改进。 在研究、实现HTML文档元数据提取的基础上,我们也对元数据应用作了初步尝试,将MEDES系统应用于“高质量、个性化信息服务”实验平台Dolphin系统中。首先,提供了对HTML文档元数据的展现功能,使得用户可以在浏览具体网页之前通过该网页的元数据作甑别选择,避免不必要的浏览行为,节约了用户时间和网络流量。在此基础上,提供了初步的基于元数据的检索功能,用户可以在HTML文档的各项元数据上施加查询条件,进行比较精确的检索。 HTML文档元数据的提取与利用,是一个较新的研究领域,尚有大量的工作要做。就本文涉及的范围而言,进一步的工作包括对提取规则、规则规约算法的改进,提高元数据提取的覆盖率和准确率,以及对元数据应用的扩展和深化。
其他文献
论文首先分析了国内外相关技术的研究现状,指出了与国外网络协同技术的发展相比,我国存在着网络应用发展的不均衡,缺乏总体设计和大规模资源集成应用以及关键技术突破不够等
EAI,即企业应用集成,传统上是通过建立底层结构,联结企业的异构系统、应用、数据源等,实现在企业内部的ERP、CRM、SCM、数据库、数据仓库,以及其他重要的内部系统之间无缝地共享和
操作系统是连接计算机硬件与上层软件及用户的桥梁,是信息系统中最重要的基础软件,是构建其他软件安全运行的基础。它对上提供应用程序运行的软件平台,向下管理所有的硬件设备,其
自然语言处理已经发展了几十年,近年来随着互联网的高速发展,人们使用计算机处理自然语言的需求越来越多。词是最小的语言单位,而汉语中词与词之间没有间隔,因此,分词成为解决一切
本文通过介绍数据库中间件在电信综合网管性能子系统中的应用,介绍了中间件技术的发展,必要性和优越性,并阐述了数据库中间件技术的具体实现,包括中间件的基本元素组成,工作流程,数
超大规模集成电路(VeryLargeScaleIntegratedcircuit,VLSI)制造工艺近年来获得了极大的发展,已经进入了超深亚微米工艺阶段,其快速发展对VLSI设计工具从多个方面提出了更高的要
随着计算机技术的发展,物联网的应用越来越广泛。利用物联网从传感器获取数据的应用也越来越普遍。传感器设备通常都具有大规模性、异构性以及资源能力有限的特点。大规模性
随着无线通信技术的发展,人们不再满足在固定地点从Internet检索、传输信息,希望能在任何时候、任何地点能方便地访问Internet,因此提出了移动Internet(它的协议即移动IP),它是传统
随着社会网络服务的普及和移动终端技术的不断发展,一种新型网络开始出现。这种网络往往由人类携带智能通信设备,如手机,平板等,通过自组织的形式组成,同时具有移动性和社会
虚拟企业作为二十一世纪主要的企业组织和管理模式,已成为越来越多企业的现实选择.随着虚拟企业概念的提出,世界各国对此展开了广泛而深入的研究.在关于虚拟企业的诸多研究问