论文部分内容阅读
从非结构化和半结构化的互联网信息中抽取结构化信息的技术广泛应用于商业数据挖掘、社交网络分析和垂直搜索引擎等领域。信息结构化包括一系列环节:设定信息抽取范围、网页爬取、网页预处理、定义抽取内容、构建抽取规则和信息存储,进一步可以分为应用依赖的和应用独立的环节。本文提出信息结构化的一般框架,基本思想是设定信息抽取的范围和内容是框架中应用依赖的环节,而其他环节具有应用独立性,通过设计一套描述方法配置应用依赖的操作,将应用独立的环节向开发人员屏蔽,提高框架的通用性和应用开发效率。具体贡献如下:(1)设计并实现了一个通用的Web信息抽取框架。从信息结构化流程中抽象出该框架,框架提供了一个统一的Web信息抽取模型;基于抽象和信息隐蔽的工程原则对框架进行总体设计,将信息结构化过程抽象为应用依赖的信息范围和内容描述与应用独立的其他环节,让开发人员配置应用依赖的操作而屏蔽应用独立的环节,提高框架的通用性和应用开发效率。(2)提出并实现了一种基于知识图谱的词类生成算法。本文引入词类的概念分析网页主题,并使用文档-词类向量对网页分类,而手工构建词类比较困难。本文基于知识图谱自动构建有效的词类,降低了词类构建的难度。(3)提出并实现了一种基于DOM节点分类的信息抽取方法。采用监督学习的方法构建信息的抽取规则,将信息抽取问题看作分类问题,以信息所在的DOM节点为粒度进行分类,提出了DOM节点的样式特征、内容特征和上下文特征。(4)在文献[46]的数据集上进行了网页分类实验,与基准方法进行对比,实验结果表明本文中提出的方法在分类效果上优于基准方案。在从Amazon等网站抽取的图书信息页面数据集上进行了信息抽取实验,其中对图书的标题、作者和价格信息进行抽取,实验结果表明本文提出的信息抽取方法能够取得较好的效果,并且具有较好的扩展性。