基于模式匹配的结构化信息抽取研究

被引量 : 0次 | 上传用户:Lynn_lin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
半结构化文本是一类面向具体领域的应用型文本,具有很强的领域特征。随着互联网技术的发展,以Web文档形式呈现的半结构化文本应用越来越广泛,从半结构化文本中抽取结构化信息具有十分可观的应用前景。现有的Web信息抽取方法一般只能从以Web文档形式呈现的半结构化文本中抽取出信息元(即粗粒度抽取结果),而并不能有效地从信息元的信息项中抽取出粒度较小的结构化信息。现有的语义分析方法依托语料库的支持,能够取得较为理想的结构化结果;但是对于开放环境中的文本,语义分析方法并不能有效获取结构化信息。文章提出一种基于模式匹配的结构化信息抽取方法,对开放环境中半结构化文本的粗粒度抽取结果进行二次抽取,提取出包含一定语义含义的结构化信息。文章主要工作如下:(1)对粗粒度抽取结果进行领域识别。领域识别的过程实质上是一个文本分类的过程,文章采用SVM分类器实现领域识别。以概念替代普通词语作为特征项构建文本向量,并根据概念权重优化文本向量权重分配,以达到最佳识别效果。文章引入领域词库,根据领域识别结果加载相应领域词库,保证结构化信息抽取阶段对词语做正确的切分。(2)提出一种抽取模式的定义方式,采用XML方式描述模式库。在传统模式关键词和目标词基础上引入属性角色,使得各个目标词之间具有一定的语义含义。抽取模式中引入边界控制机制,提高模式覆盖准确度。抽取模式中引入关键词的同义词,增强模式的同义扩展能力。(3)采用基于关键词和词语词性的模式匹配方法,实现结构化信息抽取。提出一种基于关键词和模式相似度的模式提取方法,自动提取未登录模式,实现模式库的自动学习和更新。(4)采用模式聚类的方法将模式库中依据各个关键词分类的模式集合收敛到不同的簇中。采用基于逆向最短编辑距离的方法实现簇内模式泛化,促进簇的收敛、提高簇内模式的覆盖能力。
其他文献
大吨位快速液压机油缸尺寸大、工作压力高,在压制行程完毕油缸回程之前,由于油液的压缩,在工作缸及系统的部分管道中积聚了相当大的液压能。这部分能量以及压机变形所储存的
婚姻作为民族文化的有机构成部分,一直是民族学所热衷的课题之一。然而,由于民族及其文化复杂多样的客观存在,不同民族的婚恋习俗也是相互迥异的。较之于汉族传统婚恋习俗而言,侗
世界各地不同的民族,不同社群,不同国家以其各自独特的非物质文化遗产,共同构成了人类丰富绚丽的人文环境自然,其中蕴含着生态环境权等丰富的权利内容。随着现代工业文明时代的到
采用分段冷却(淬火+空冷)方式对Q245R/06Cr19Ni10复合钢板进行热处理。利用扫描电镜、EDS和显微硬度等方法分别对热处理前、后复合钢板试样的微观结构和性能进行了研究。结果
列宁一生最突出的贡献,在理论上继承、捍卫和发展了马克思主义,形成了俄国的马克思主义——列宁主义;在实践上把社会主义由空想变成现实,成功地在俄国建立了世界上第一个社会
自1994年我国出现民营媒介企业以来,在其发展的过程中机遇与挑战并存,既体现了媒体管制政策的不断变化,又体现出传媒产业化、市场化的必然要求。民营媒介的发展史可以在某种
马克思主义是人类近现代史上最伟大的思想成果,它源于对资本主义社会的阶级压迫和资本统治的现实的强烈批判,指向消灭私有制的共产主义社会的实现。它的基本性质是什么?发源
现代机器制造业中机器的功率需求不断增大,而同时机器的尺寸和重量却要求减小,故此,对其中最重要的传动零件“齿轮”的强度和精度指标提出了越来越高的要求。相应地,近年来我国齿
在亚洲开发银行的倡议下,大湄公河沿岸六国于1992年共同发起了大湄公河次区域经济合作(GMS)机制,二十年来,大湄公河次区域合作在交通、能源、电信、环境、农业、人力资源开发
随着网络的不断发展,每天都会有海量的信息呈现出来。信息爆炸式的增长是当前计算机自然语言处理领域面临的既困难、又重要的问题。如何有效地掌控海量数据,并且准确识别、区分