论文部分内容阅读
半结构化文本是一类面向具体领域的应用型文本,具有很强的领域特征。随着互联网技术的发展,以Web文档形式呈现的半结构化文本应用越来越广泛,从半结构化文本中抽取结构化信息具有十分可观的应用前景。现有的Web信息抽取方法一般只能从以Web文档形式呈现的半结构化文本中抽取出信息元(即粗粒度抽取结果),而并不能有效地从信息元的信息项中抽取出粒度较小的结构化信息。现有的语义分析方法依托语料库的支持,能够取得较为理想的结构化结果;但是对于开放环境中的文本,语义分析方法并不能有效获取结构化信息。文章提出一种基于模式匹配的结构化信息抽取方法,对开放环境中半结构化文本的粗粒度抽取结果进行二次抽取,提取出包含一定语义含义的结构化信息。文章主要工作如下:(1)对粗粒度抽取结果进行领域识别。领域识别的过程实质上是一个文本分类的过程,文章采用SVM分类器实现领域识别。以概念替代普通词语作为特征项构建文本向量,并根据概念权重优化文本向量权重分配,以达到最佳识别效果。文章引入领域词库,根据领域识别结果加载相应领域词库,保证结构化信息抽取阶段对词语做正确的切分。(2)提出一种抽取模式的定义方式,采用XML方式描述模式库。在传统模式关键词和目标词基础上引入属性角色,使得各个目标词之间具有一定的语义含义。抽取模式中引入边界控制机制,提高模式覆盖准确度。抽取模式中引入关键词的同义词,增强模式的同义扩展能力。(3)采用基于关键词和词语词性的模式匹配方法,实现结构化信息抽取。提出一种基于关键词和模式相似度的模式提取方法,自动提取未登录模式,实现模式库的自动学习和更新。(4)采用模式聚类的方法将模式库中依据各个关键词分类的模式集合收敛到不同的簇中。采用基于逆向最短编辑距离的方法实现簇内模式泛化,促进簇的收敛、提高簇内模式的覆盖能力。