面向金融文本的实体识别与关系抽取研究

被引量 : 0次 | 上传用户:yinfeiyangfang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断发展,如何对飞速增长的互联网文本中包含的知识进行高效可靠的挖掘并进行组织,已成为自然语言处理和信息抽取研究中的重要目标。互联网中各种命名实体及之间的关系纷繁复杂,单纯的以人工和经验的方式进行相关知识的获取及组织已经远远不能满足人们的使用要求。为此,知识的自动获取逐渐地成为文本处理的重要课题。本文主要研究金融领域命名实体及其关系自动获取的方法。从现有的研究来看,基于规则的方法有着较高的准确率,但是对于先验的专家知识要求很高;基于统计的方法则不需要过多的先验知识,但是却严重依赖于标注好的训练数据。单纯的使用其中一种方法已经不能满足实际应用的需求。本文主要进行以下三方面的研究。首先,引入金融文本中人名上下文特征构建识别模型,对中文人名进行识别。在人工标注的2,008条数据上达到0.94的人名识别F值。第二,对金融文本中组织机构名的观察和统计显示,此类实体名称可以分为具有明显区别的全称和缩写两类形式。针对全称,本文采用条件随机场结合领域特征的方法进行识别。而对于缩写形式,则利用实体内部结合度、实体边界特征以及实体全称进行识别。在人工标注的包含5,500条组织结构实体的数据集上达到0.93的F值。第三,根据文本中的信息及表达模式,利用关系表达模板的迭代生成及评估策略对金融领域中的组织机构间的五类常见关系进行识别。在人工标注的2,167条数据集上本文提出的关系获取算法达到较好的准确率。本研究的主要贡献包括:一、针对组织机构名全称和缩写两种形式各自的特点,提出基于实体内部结合度与实体边界特征的方法,在解决对缩写形式的组织机构名进行识别问题的同时,提高组织结构实体识别的性能。第二,提出一种基于模板迭代的实体关系抽取方法。该方法可以在较少人工干预情况下不断自动学习新的关系表达模式,以发现更多实体之间的关系。
其他文献
病历介绍例1患者30岁,G2P1,因停经37^+5周,无痛性少量阴道流血2小时入院。查体:一般情况可,BP:100/60mmHg,心肺正常。产科检查:宫高35cm,腹围98cm,胎心率148次/min,LOA(左枕前位)。B超:单胎头
幼儿的社会性指幼儿在社会环境的相互作用中逐渐获得周围社会生活的各种社会观念,形成人与人的情感关系,逐渐适应社会,成为独立合格的社会成员的过程。本文对如何创造良好的
手机短信已成为我们工作和生活中的新的信息载体,目前已成为一个庞大的产业,动动手指就可以随时随地地收发传递文字、图片、音乐等。其传播效率和便利性具有传统媒体不能比拟
<正> E “enpuzzled”information 成为“谜”的信息eavesdropping 窃听EBCDIC(Extended Binary-Coded Decimal Interchange Code) 扩充的二一十进制交换码ECB(Electronic Co
随着我国对建筑节能和环境保护问题的日趋重视,必然会在建筑业倡导和推进新型建筑材料的应用、施工方式的转变和高新技术的引入。为适应这一基本情况,本文结合BIM对以夹芯板
萃取法具有操作可连续化,生产周期短,对热敏物质破坏少,保证鱼油良好品质的优点,但目前萃取法提取鱼油的控制系统相对落后。文章在分析鱼油萃取工艺过程的基础上,根据工艺要求设计
由B.Schier撰写的《实用密码学——协议、算法和C源程序》一书.是目前内容最全最新的密码学专著,为了使广大科技人员能及时了解国外最新密码学方面的知识。从本期开始,本刊将
目的研究经阴式超声与经腹超声联合检查子宫肌瘤的诊断效果。方法选取2016年1月~2018年8月收治的子宫肌瘤患者200例作为研究对象,根据数字随机表法将其随机分为观察组与对照
目的探讨自拟阳举1号汤联合安特尔对中老年男性迟发性性腺功能减退症的临床疗效。方法选取我院2013年6月~2014年6月门诊中老年男性迟发性性腺功能减退症患者93例,平均年龄(59