基于本体的网页中非标记表格抽取的研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:qq452723692
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,国内外垂直搜索引擎发展迅速,各行业各种类型的垂直搜索引擎如百花齐放。与传统搜索引擎相比,垂直搜索的一大特点就是需要对HTML页面进行信息抽取,但是实现通用自动的抽取系统很困难。  本文以上市公司发布的金融年报为研究对象,金融年报中包含大量的表格,而HTML页面中的表格分为标记表格与非标记表格,金融年报中的表格属于非标记表格。  本论文的主要研究目的是将本体与机器学习方法结合,探索实现通用自动的非标记表格抽取的方法。  另外本文的任务是为金融语义网搜索引擎提供检索数据,语义网文件具有半结构化的特性,所以本文的抽取结果存储在XML文档中。  通过上面对输入输出数据格式的分析,本文初步实现一个非标记表格的抽取系统,并且实现了抽取结果的自动测试。  本论文主要研究以下几方面的内容:  (1)分析金融年报特征,详细设计非标记表格抽取的架构;  (2)根据表格抽取需求,研究对HTML页面进行净化处理的方法;  (3)实现表格结构识别的过程,改进其中的定位、列分割等算法;  (4)基于组员已建立的金融领域的本体,判断表格的展开方式,设计内容抽取的方法;  (5)研究实现表格抽取系统的结果准确度自动测试的算法;  (6)分析结构识别各阶段以及系统抽取结果的不足。  现阶段国内外对非标记表格抽取的研究主要集中在结构识别阶段,研究抽取系统的很少。本文的研究主要在净化、定位、列分割阶段,准确度较高,其他阶段也进行了实现,还需要进一步改进。由于本体和结构识别的双重影响,系统目前的准确度为16.93%。
其他文献
图像超分辨率重建是指从一幅或者多幅低分辨率(LR)图像重建出高分辨率(HR)图像的过程。该技术在气象遥感、医学成像、安全监控、多媒体通讯、数字娱乐等领域有着广泛的应用前
SOA(Service Oriented Architecture)是由IBM, Microsoft等软件公司倡导的一种新型的企业级系统架构,2005召开了第一届SOA年度大会。SOA引起了越来越多人们的关注。SOA强调业
文本过滤是从动态的文档流中,检索出符合用户需求文本的一种技术。随着文本过滤技术在电子邮件、消息订阅、信息安全等领域的应用变得越加广泛,用户对过滤的要求也越来越高。为
图像和视频是人类可以利用的最主要的信息载体。互联网的发展和多媒体的进步使得多媒体的各种新的应用和服务成为可能,尽管互联网的带宽和设备的存储容量都有所提高,但是数字
模型检测是公认的一种比较有效的验证系统正确性和可靠性的方法。在一些安全至关重要的领域检测预知系统的响应时间、事件调度的延迟等一系列的参数尤为重要。实际上大部分的
闪存是一种新型的电可擦除可编程只读存储器,具有非易失、读写速度快、抗震性能好、低功耗、体积小等特性。随着闪存容量的不断增加和价格的逐渐下降,闪存相对于传统机械硬盘具
随着计算机技术和网络通信技术的高速发展,以并发性、分布性、实时性、异构性和互操作性等主要特征的并发分布式系统已成为计算机技术的主流方向。并发现象以其固有的复杂性,
海豚是一种高智商的水生哺乳动物,它们使用自己独特的“语言”——哨声来进行互相交流。要想理解海豚的语言,就必须要对海豚哨声进行分析研究。当前对海豚哨声的分析研究大多是
随着计算机软硬件系统规模的日益复杂化、重要化,如何保证计算机系统的正确性和可靠性,逐渐成为当前理论界和产业界共同关心的重要问题。长期以来,常用的系统设计检验方法是以经
随着Internet上信息量的迅速增长,搜索引擎已经成为人们检索网上信息的主要手段,是互联网上人们获取信息最重要的方式之一。网络爬虫作为搜索引擎中负责采集信息的模块,有重要的