半结构化金融合同的核心信息提取系统的设计与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:exiaodong1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着金融信息化的高速发展,如何从形式各样的金融文本中快速、准确地筛选出有价值的信息并按照企业的需求将信息进行结构化存储,日益显示出重要性。半结构化金融合同是一种常见的金融数据文本,它虽用特定的文本结构书写但具有篇幅长和信息冗余的特点。本文分析了这种合同的结构和数据特征,采用先对合同文本进行分类、后对核心信息进行抽取的思路进行研究。首先,设计了核心信息抽取算法。1)进行了数据预处理,创建了针对金融专业领域的自定义词典。该词典对分词库进行了优化并训练了适应于金融领域问题和数据规则的词向量和关键词词典,实现了对金融数据更好的过滤和约束;2)对合同文本的前置信息运用TextCNN模型进行分类,通过不同的卷积核提取关键信息。与传统的文本分类方法相比,TextCNN模型可以更好地捕捉局部相关性,达到了更良好的文本分类效果。3)根据金融合同文本的行文结构特征、文本内容之间的关联性、数据的强规则性等特征,采用基于规则的信息抽取方式进行简单信息的抽取,结合基于HMM模型对复杂项信息进行抽取。相较于传统的信息抽取方式,该方案在信息抽取的过程中能够充分考虑上下文内容以及文本结构等因素的影响,从而提高抽取任务的准确率。其次,基于上述算法,使用Java编程语言、结合SSM框架实现了一套金融借贷合同的核心信息抽取系统。该系统具有简洁的界面,用户可在系统中进行半结构化金融合同的核心信息抽取和结构化管理,并按照需求格式将数据导出。最后,对系统的文本分类、信息抽取等功能和性能进行了测试,从精度和召回率的统计结果来看,已达到了设计目标。
其他文献
研究目的:探讨绝经过渡期及绝经后期女性绝经激素治疗(menopause hormone therapy,MHT)不同时限的获益,评价MHT的有效性及安全性,对临床应用提供指导。研究内容:回顾性分析于2009年8月-2019年8月在东南大学附属中大医院妇科/妇科内分泌门诊就诊的绝经过渡期及绝经后期女性,按照纳入排除标准,筛选符合本研究要求的病例共200例,按照绝经激素治疗时间的不同分为三组。A组(9
中国的铁路事业和站房建设始于19世纪末,早期的火车站一般建在城市边缘,并且基本只为了满足铁路出行这一项功能。随着经济的发展和社会的进步,城市建设速度加快,城市范围急剧扩大,使得原本位于城市边缘的火车站被逐渐纳入到城市中心区。面对新的城市环境和社会需求,由于缺乏整体考虑和统一设计,再加之现有改造的局限性,导致原有的火车站与周边城市空间之间出现了一系列的问题:站房空间与城市空间脱节、火车站周边空间秩序
无线自组网是由一组带有无线收发装置的可移动节点组成的一个临时性多跳自治网络,它不依赖于预设的基础设施,具有可临时组网、快速展开、无控制中心、抗毁性强等特点,在军事和民用方面都具有广阔的应用前景。其中媒体接入控制层(Medium Access Control,MAC)负责信道的接入与资源的分配,是无线自组网协议栈的重要组成部分,MAC协议的质量对无线自组网的性能影响重大。因此,MAC协议的设计至关重
随着电子商务的发展,众多网络购物平台上的产品评论数量呈指数级增加。这些海量评论数据中潜藏了大量用户的情感信息,具有较高的应用价值。传统情感分析技术直接给出了评价语句的整体情感倾向,而用户关注的往往是产品某一具体方面的情感极性。当评价语句中包含多个评价对象,并且对应的情感极性发生冲突时,传统分析方法并不能做出正确判断。细粒度情感分析技术能够挖掘出评论语句中包含的多个评价对象,并对每个评价对象作出相应
永磁同步电动机(PMSM)通常用于需要高性能和高效率电动机驱动器的应用中。大功率的永磁同步电机驱动器需要高压大电流的IGBT模块。这种模块成本较高且损耗较大。本文使用并联逆变器方案,用多个容量小,损耗低的常规IGBT模块,实现大功率PMSM的高性能控制。本研究采用主从控制和磁场定向控制(FOC)相结合的并联逆变器控制方案。主控制器从测得的电动机速度生成参考电流,而从控制器采用FOC控制生成参考电压
中小学建筑改造设计是近些年基于经济、社会、教育、安全等方面,不断变化产生的新的发展趋势。当下对学校建筑的改造分为两部分,建筑设计改造与结构加固改造。前者是对学校使用环境的改善,从封闭转变为开放且有多种复合功能的教学空间,但因结构的限制,较多项目只是进行建筑内部空间改造或外立面更新。后者是对学校建筑整体抗震能力的提高。为了减少对建筑使用的影响,可使用加固技术较为限制。这两种改造相互独立进行,却又被彼
高压变频器对供电电网冲击小、启动和调速性能优异、节能效果显著,被广泛应用于风机、水泵、空压机、轧钢机等各种需要调速的工业设备。本文设计并实现了一套高压变频器监控系统,满足在高压变频器的开发、测试、现场调试和故障分析等阶段,工程师对数据显示、参数管理、故障分析、程序更新等功能的需求,具体工作如下:通过调研监控系统的功能要求,总结出监控系统主要功能包括用户登录、监控工程管理、实时状态显示、实时波形显示
自动导引车(Automated Guided Vehicle,AGV)路径规划是自动化仓储的重要组成部分。随着数字化、智能化仓储系统的普及,越来越多的AGV被应用到仓储系统中,参与物资在库内的移动搬运任务,从而提高了效率,减少了企业运输成本。对于AGV间路径冲突引起的多AGV路径规划问题,需要结合实际作业的场地环境以及仓库搬运的业务逻辑,才能够尽可能的提升移动搬运任务的效率。本文所做的主要研究工作
目前软件版本管理系统结构布局单一,重复繁琐的操作浪费了员工大量的工作时间,导致员工访问体验感较差。同时软件版本延迟发布现象严重,公司没有定位分析异常版本产生原因的客观参考依据。通过调研发现,这些现状产生的原因都和员工访问系统的行为息息相关。因此,本文引入用户行为分析技术,深入挖掘分析员工访问系统的一系列行为特点,了解员工的访问需求和工作情况,并将分析结果应用于解决软件版本管理系统目前面临的问题。本
苏中地区明代住宅建筑存量丰富,且针对性的研究尚属空白。本论文选定苏中地区明代住宅建筑大木特征为研究对象,以对其形成较为全面、整体的认识与研究结论为目的,采用统计分析、个案研究、对比研究等方法,通过基础资料的收集、现存实例的现场调查测绘、相关信息的统计归纳、相关案例与文献的对比研究,逐一得出相应的结论并最终形成对苏中地区明代住宅建筑的大木特征的整体认识。第一章,介绍选题缘起与研究背景,界定研究范围,