论文部分内容阅读
目前,国内外垂直搜索引擎发展迅速,各行业各种类型的垂直搜索引擎如百花齐放。与传统搜索引擎相比,垂直搜索的一大特点就是需要对HTML页面进行信息抽取,但是实现通用自动的抽取系统很困难。 本文以上市公司发布的金融年报为研究对象,金融年报中包含大量的表格,而HTML页面中的表格分为标记表格与非标记表格,金融年报中的表格属于非标记表格。 本论文的主要研究目的是将本体与机器学习方法结合,探索实现通用自动的非标记表格抽取的方法。 另外本文的任务是为金融语义网搜索引擎提供检索数据,语义网文件具有半结构化的特性,所以本文的抽取结果存储在XML文档中。 通过上面对输入输出数据格式的分析,本文初步实现一个非标记表格的抽取系统,并且实现了抽取结果的自动测试。 本论文主要研究以下几方面的内容: (1)分析金融年报特征,详细设计非标记表格抽取的架构; (2)根据表格抽取需求,研究对HTML页面进行净化处理的方法; (3)实现表格结构识别的过程,改进其中的定位、列分割等算法; (4)基于组员已建立的金融领域的本体,判断表格的展开方式,设计内容抽取的方法; (5)研究实现表格抽取系统的结果准确度自动测试的算法; (6)分析结构识别各阶段以及系统抽取结果的不足。 现阶段国内外对非标记表格抽取的研究主要集中在结构识别阶段,研究抽取系统的很少。本文的研究主要在净化、定位、列分割阶段,准确度较高,其他阶段也进行了实现,还需要进一步改进。由于本体和结构识别的双重影响,系统目前的准确度为16.93%。