论文部分内容阅读
随着互联网技术的不断发展,如何对飞速增长的互联网文本中包含的知识进行高效可靠的挖掘并进行组织,已成为自然语言处理和信息抽取研究中的重要目标。互联网中各种命名实体及之间的关系纷繁复杂,单纯的以人工和经验的方式进行相关知识的获取及组织已经远远不能满足人们的使用要求。为此,知识的自动获取逐渐地成为文本处理的重要课题。本文主要研究金融领域命名实体及其关系自动获取的方法。从现有的研究来看,基于规则的方法有着较高的准确率,但是对于先验的专家知识要求很高;基于统计的方法则不需要过多的先验知识,但是却严重依赖于标注好的训练数据。单纯的使用其中一种方法已经不能满足实际应用的需求。本文主要进行以下三方面的研究。首先,引入金融文本中人名上下文特征构建识别模型,对中文人名进行识别。在人工标注的2,008条数据上达到0.94的人名识别F值。第二,对金融文本中组织机构名的观察和统计显示,此类实体名称可以分为具有明显区别的全称和缩写两类形式。针对全称,本文采用条件随机场结合领域特征的方法进行识别。而对于缩写形式,则利用实体内部结合度、实体边界特征以及实体全称进行识别。在人工标注的包含5,500条组织结构实体的数据集上达到0.93的F值。第三,根据文本中的信息及表达模式,利用关系表达模板的迭代生成及评估策略对金融领域中的组织机构间的五类常见关系进行识别。在人工标注的2,167条数据集上本文提出的关系获取算法达到较好的准确率。本研究的主要贡献包括:一、针对组织机构名全称和缩写两种形式各自的特点,提出基于实体内部结合度与实体边界特征的方法,在解决对缩写形式的组织机构名进行识别问题的同时,提高组织结构实体识别的性能。第二,提出一种基于模板迭代的实体关系抽取方法。该方法可以在较少人工干预情况下不断自动学习新的关系表达模式,以发现更多实体之间的关系。