面向自由文本的细粒度关系抽取的关键技术研究

被引量 : 8次 | 上传用户:zkw_2209
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息抽取(IE, Information Extraction)是继信息检索和机器翻译之后,信息处理领域倍受关注的一个重要的研究方向。IE的目的是抽取出指定的事件、事实等信息并填入一个数据库中供用户查询使用,只有得到各个实体之间的正确关系,才能进行正确的数据库填充。实体关系抽取成为影响IE系统质量的一个关键技术,有着广泛的应用背景。随着Internet的快速发展和网上信息量的迅猛增长,及自然语言处理技术和机器学习技术的不断发展和成熟,从自由文本中抽取出有用的结构化信息已经成为可能。目前实体关系抽取研究已经取得了很多的成果,也越来越走入人们的日常生活,比如像google的Powerset语义搜索引擎、apache软件基金会的Lucene全文检索引擎架构等等。但是,对文本浅层特征的利用以及依赖于少量特定领域的训练文本,使得它们的效果往往不尽如人意,实体抽取技术仍然面临着很多困难。本文以Triples<实体,属性,值>(Entity-Artribute-Value,EAV)为研究对象(本文称为细粒度关系,或EAV关系),以HNC (Hierarchical Network of Concepts,概念层次网络)理论、描述逻辑和半监督学习理论为基础,研究语义层面的细粒度关系(实体-属性、实体-属性值、属性-属性、属性-属性值之间的关系)抽取的关键技术,本文的主要贡献:1、构建了描述细粒度关系本体的逻辑系统ALCIQ(EAV)(3.5)。在传统的知识管理方式下,由于信息资源缺少统一的语义描述,用户难以实现相关资源的语义融合,本体技术是解决这一困难的重要手段。本体的建立对于需要交换信息,共享信息的人或异构系统来说,将有助于清除在概念和术语上的分歧,对领域内的概念理解达成共识,成为人机之间,机器和机器之间互相理解的语义基础。本文基于本体技术给出了EAV建模的描述逻辑ALCIQ(EAV),基于ALCIQ(EAV)推理算法实现了EAV本体依赖、EAV角色依赖、EAV外部依赖和EAV的形式化,有效地解决了细粒度关系范围的界定。2、提出了基于HNC的词语语义关联度计算方法(4.3.4)。在细粒度关系抽取中,关联度计算可以发现词语之间的固有联系和隐含关系,可以联想孤立词语的关联词语(相似词语、相反词语、搭配词语、共现词语等),是词语语义相似度和词语语义相关度扩充。本文通过HNC把整个世界作为一个普遍联系的有机整体,假设词语之间也是相互联系的,词语之间构成一张无向带权图(网),用一条边来连接相关联的两个词语,边上的权重为两个词语的关联度,通过在概念网络寻找两个词语的路径来计算词语之间的固有联系和隐含关系。利用HNC联想机制,计算HNC符号的中层表达式,实现词语联想。解决了语义层面上的词语关联度计算,扩展了词语语义相似度和词语语义相关度概念,是抽取实体、属性、属性值的基础。实验结果表明通过词语语义关联度抽取的属性和属性值更能客观地反映真实的细粒度语义关系。3、提出了基于半监督学习的未定义关系类别的细粒度关系抽取算法(5.3)。未定义关系类别的关系抽取是细粒度关系抽取的核心问题,针对预定义关系类别应用的局限性,本文基于半监督学习给出了未定义关系类别的聚类算法,该算法包括:基于正例和未标注数据学习算法、关系模式泛化算法和关系模式置信度计算算法,并在维基百科上展示了一个细粒度关系抽取的实验,在训练数据较少的情况下,其效果仍然是可接受的。4、给出一个细粒度关系抽取应用案例——中文科技术语分析(6.2)。中文科技术语分析有利于确定中文科技术语的内涵与分类,界定与判断新术语,把握中文科技术语所属领域的发展重点与发展方向。为了验证细粒度关系抽取的效果,将本文的细粒度关系抽取方法应用于中文科技术语分析。首先,利用ALCIQ(EAV)对科技术语建模,界定中文科技术语文本范围;然后,计算“术语-属性-属性值”关联度,抽取中文科技术语的属性及其相应的值;最后,基于半监督学习的未定义关系类别算法对中文科技术语聚类。
其他文献
本文是将铁道工程与计算机及数学专业知识结合起来的学科综合性研究设计。主要做了以下工作与创新:(1)通过ABAQUS建立的车辆-轨道-路基动力学模型,分别对车体振动加速度、轮轨
淮阳泥泥狗,以独特的艺术造型、鲜明的民间色彩和浓郁的乡土民俗韵味而闻名于世。泥泥狗产生的根本原因是伏羲文化孕育下的必然结果。人们将心理的情感与追求移情于泥泥狗,形
探讨将滤筒除尘器应用于井下狭小空间除尘的可行性。通过对矿井除尘技术及工作面环境的分析,设计小型滤筒除尘器,并在实验室进行收集煤粉的模拟实验。实验结果表明,滤筒除尘
存在句是汉语的特殊句式之一,但目前韩国学生的存在句偏误分析研究跟其他的特殊句式相比并不多。这可能是存在句跟其他汉语的特殊句式相比偏误的严重性较低,偏误出现的几率也较
现代语言学奠基人、瑞士语言学家索绪尔(Ferdinand de Saussure,1857-1913)指出:“一个民族的风俗习惯常会在它的语言中有所反映,另一方面,在很大程度上,构成民族的也正是语言
本文以草鱼为研究对象,以磷酸二氢钙、磷酸氢钙和酸化剂为试验材料,旨在探讨不同磷源、磷浓度和酸化剂对草鱼生长、生理的影响。本文共设置了三个试验,试验一主要探讨在草鱼
<正>一、教学目标在学生已有认识的基础上,引导学生对礼教的吃人本质进行深入思考,分析作家是如何通过小说手法刻画人物精神世界的。
<正>美国国税局的正式名称是"美国国内收入署",简称IRS,隶属于财政部,掌握着美国人的社会安全号和银行账号,有稽查人员四万人,占职员总数的百分之三十五左右。IRS被称为"美国
调研了黑龙江省野生浆果资源状况,结果表明,有10科13属近30个种,全省蕴藏量大,其中山葡萄、软枣猕猴桃和越桔分别达1.8万T,0.5万T和10万T以上。对野浆果的食用、药用、综合开发利用、生产特点、加工
在新一轮西部大开发形势下,要求贵州经济实现跨越式绿色发展。贵州生态脆弱地区是贵州经济发展的重点。贵州生态脆弱地区涵盖的范围较广,人口众多,面临的主要问题包括:生态环