论文部分内容阅读
信息抽取(IE, Information Extraction)是继信息检索和机器翻译之后,信息处理领域倍受关注的一个重要的研究方向。IE的目的是抽取出指定的事件、事实等信息并填入一个数据库中供用户查询使用,只有得到各个实体之间的正确关系,才能进行正确的数据库填充。实体关系抽取成为影响IE系统质量的一个关键技术,有着广泛的应用背景。随着Internet的快速发展和网上信息量的迅猛增长,及自然语言处理技术和机器学习技术的不断发展和成熟,从自由文本中抽取出有用的结构化信息已经成为可能。目前实体关系抽取研究已经取得了很多的成果,也越来越走入人们的日常生活,比如像google的Powerset语义搜索引擎、apache软件基金会的Lucene全文检索引擎架构等等。但是,对文本浅层特征的利用以及依赖于少量特定领域的训练文本,使得它们的效果往往不尽如人意,实体抽取技术仍然面临着很多困难。本文以Triples<实体,属性,值>(Entity-Artribute-Value,EAV)为研究对象(本文称为细粒度关系,或EAV关系),以HNC (Hierarchical Network of Concepts,概念层次网络)理论、描述逻辑和半监督学习理论为基础,研究语义层面的细粒度关系(实体-属性、实体-属性值、属性-属性、属性-属性值之间的关系)抽取的关键技术,本文的主要贡献:1、构建了描述细粒度关系本体的逻辑系统ALCIQ(EAV)(3.5)。在传统的知识管理方式下,由于信息资源缺少统一的语义描述,用户难以实现相关资源的语义融合,本体技术是解决这一困难的重要手段。本体的建立对于需要交换信息,共享信息的人或异构系统来说,将有助于清除在概念和术语上的分歧,对领域内的概念理解达成共识,成为人机之间,机器和机器之间互相理解的语义基础。本文基于本体技术给出了EAV建模的描述逻辑ALCIQ(EAV),基于ALCIQ(EAV)推理算法实现了EAV本体依赖、EAV角色依赖、EAV外部依赖和EAV的形式化,有效地解决了细粒度关系范围的界定。2、提出了基于HNC的词语语义关联度计算方法(4.3.4)。在细粒度关系抽取中,关联度计算可以发现词语之间的固有联系和隐含关系,可以联想孤立词语的关联词语(相似词语、相反词语、搭配词语、共现词语等),是词语语义相似度和词语语义相关度扩充。本文通过HNC把整个世界作为一个普遍联系的有机整体,假设词语之间也是相互联系的,词语之间构成一张无向带权图(网),用一条边来连接相关联的两个词语,边上的权重为两个词语的关联度,通过在概念网络寻找两个词语的路径来计算词语之间的固有联系和隐含关系。利用HNC联想机制,计算HNC符号的中层表达式,实现词语联想。解决了语义层面上的词语关联度计算,扩展了词语语义相似度和词语语义相关度概念,是抽取实体、属性、属性值的基础。实验结果表明通过词语语义关联度抽取的属性和属性值更能客观地反映真实的细粒度语义关系。3、提出了基于半监督学习的未定义关系类别的细粒度关系抽取算法(5.3)。未定义关系类别的关系抽取是细粒度关系抽取的核心问题,针对预定义关系类别应用的局限性,本文基于半监督学习给出了未定义关系类别的聚类算法,该算法包括:基于正例和未标注数据学习算法、关系模式泛化算法和关系模式置信度计算算法,并在维基百科上展示了一个细粒度关系抽取的实验,在训练数据较少的情况下,其效果仍然是可接受的。4、给出一个细粒度关系抽取应用案例——中文科技术语分析(6.2)。中文科技术语分析有利于确定中文科技术语的内涵与分类,界定与判断新术语,把握中文科技术语所属领域的发展重点与发展方向。为了验证细粒度关系抽取的效果,将本文的细粒度关系抽取方法应用于中文科技术语分析。首先,利用ALCIQ(EAV)对科技术语建模,界定中文科技术语文本范围;然后,计算“术语-属性-属性值”关联度,抽取中文科技术语的属性及其相应的值;最后,基于半监督学习的未定义关系类别算法对中文科技术语聚类。