面向合同文本的命名实体识别研究与应用

来源 :东北石油大学 | 被引量 : 0次 | 上传用户:bangxiaosg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的蓬勃发展,各行各业都纷纷开始利用计算机技术来提升工作效率。合同管理是企业管理中极为重要的一个环节,其质量的好坏将直接影响企业的发展前景。利用人工对合同进行重复繁杂的审查工作极易出现合同审查不严谨的问题,因此可以对合同内容进行实体要素抽取研究,从而提高合同审查的准确率,降低企业因合同审查不严谨而带来的商业风险,具有很好的商业用途以及社会价值。本文主要工作如下:1.构建合同文本实体识别数据集。由于合同涉及到保密问题,包含较多隐私信息,目前市面上没有公开的可以进行合同命名实体识别研究的数据集,因此本文研究的一项重要任务就是构建出合同文本命名实体识别数据集。首先定义合同实体类别,利用精灵标注助手对合同文档进行人工标注,采用BIO标注方式,将人工标注完成后导出的合同进行实体标签分配,同时删除文中的空格及特殊符号,将数据处理成可以作为模型输入的数据格式,从而构建合同文本命名实体识别数据集。2.融入注意力机制对Bert-Bi LSTM-CRF模型进行改进。本文首先在Bi LSTM-CRF模型的基础上引入Bert预训练语言模型,强化了词向量的语义信息,很好的解决了一词多义的问题。将Bert训练得到的词向量输入到Bi LSTM神经网络层,通过对序列的上下文信息进行建模学习,为每个标签输出具体的分值,得到序列的全局特征信息;在Bi LSTM层之后融入注意力机制,利用注意力机制轻易捕获重点信息的优点,强化序列的局部特征信息;最后进入CRF层,通过在上一层输出的实体标签之间引入一定的约束关系,保证了模型最终输出标签的合理性,得到概率最大的标签合集。模型的最终识别效果其F1值达到了86.35%。3.设计实现合同文本命名实体识别系统。本文采用B/S架构,利用Django框架进行合同命名实体识别系统的开发。系统框架共包括三个模块,分别为数据层、业务层和Web交互层,并且对业务层中的四个功能模块进行了详细的设计分析与实现。其中语料库构建模块实现合同数据集构建;模型训练模块通过设置不同参数进行模型训练;数据处理模块提取不同格式的合同文档中的内容到当前页面;实体识别模块对输入的待识别的合同语句或片段进行命名实体识别,并将合同实体要素提取的结果反馈到当前页面中。通过对合同文本实体识别结果的可视化,更加直观地观察本文模型对合同实体要素提取的有效性。
其他文献
随着现代社会的发展,前列腺癌逐渐成为困扰男性的主要疾病,传统人工检测前列腺癌的方法效率低、不确定性大,且对医生的要求较高,难以进行大规模筛查来降低前列腺癌的发病率。为解决这一问题,本文依托实验室自主研发的前列腺穿刺手术机器人,针对前列腺超声图像的去噪、分割与三维重建方法进行了改进,医生可凭重建后的前列腺三维模型进行进针手术规划。本文通过前列腺穿刺手术机器人超声图像采集平台获取前列腺超声图像,研究了
学位
在地质勘探、地下资源预测等地质考察研究中经常将地质裂缝作为重要的研究对象,对地质裂缝的研究分析可以推测地质结构演化过程和探索地下矿产资源,因此这是具有重大实用价值且意义深远的一项重要议题。传统的人工识别地质裂缝方法误差大且效率低,造成大量的物力和人力资源的浪费,甚至有威胁生产安全。随着对地质裂缝特征的研究不断深入,深度学习、计算机视觉技术在地质裂缝识别的应用研究中得以广泛应用。本课题采用了适合地质
学位
视觉SLAM技术由于其传感器价格低廉以及环境感知能力强的特点正在被广泛用于移动机器人SLAM。作为感知手段为高精度定位系统提供丰富的环境语义信息也是最近的研究热点之一。复杂非结构化环境场景下的任务操作形机器人需要在定位建图的同时获得环境中物体级别的语义信息。这对视觉SLAM系统提出了新的挑战。首先,介绍了经典的SLAM系统框架及其数学描述,分析了传统VSLAM系统相机的单目模型、双目模型和RGB-
学位
报纸
2021年被视作“元宇宙元年”,元宇宙概念从文学、虚拟游戏视域走到大众面前。我国科技馆正在全面推进数字化、信息化建设,元宇宙的发展给科技馆的科普服务创新带来了新的契机,元宇宙与科技展项的虚拟展示让科技馆的展项、展品迸发出了勃勃生机。在元宇宙发展热潮的影响下,科技馆如何去实践、探索元宇宙技术的应用,真正解决科技馆数字化发展的难点,如何思考和展望未来发展道路,基于此,本文进行了相关探索,并提出了相关解
期刊
录井数据是录井解释业务的数据根基。伴随着录井数据的日积月累,传统的关系型数据库的存储分析性能已经远远不能满足客户的实际生产需要。加之从各钻探小队收集上来的原始录井解释数据具有多源异构的特点,使得每一个钻探小队的录井数据就像一个孤岛一样无法与其他小队的录井数据实现连接互动。从而导致了大量的录井解释数据无法实现共享和统一管理。因此,如何有效地存储录井数据并杜绝“数据孤岛”现象的产生便成为了一个亟需解决
学位
近年来,微创人工耳蜗植入(MICI)手术以其切口美观、对人体内部组织造成的创伤小、预防皮瓣并发症、耳蜗纤维化和骨化等特点受到临床医生的推崇。MICI手术中,外科医生的视野及动作都受到很大程度的限制,很难对电极阵列的植入位置及植入过程中的力与速度进行精细控制。因此开发一款高分辨率且具有力感知功能的人工耳蜗电极植入机构具有十分重要的意义。为此,本文研制了一种人工耳蜗电极植入机构。基于柔性铰链的可逆形变
学位
近年来随着社会的不断发展进步,监控摄像头越来越广泛地应用在城市的各个方面为城市安全提供保障。但是使用传统的人工监查的方式已经不能处理日益增多的监控摄像头所产生的海量监控视频数据,因此行人重识别技术逐渐进入人们视野中。行人重识别技术是利用计算机视觉的理论方法判断给定一张目标行人的图片能够在其他图片或者不重叠监控视频中找到该目标行人的技术。行人重识别技术在城市安防等领域具有广阔的应用场景,但由于不同摄
学位
本世纪以来自动化和计算机技术的发展为室外移动机器人的推广供了不可忽视的推动力,因此针对室外移动机器人的研究俨然已成为主流趋势之一。为了保障机器人具备导航到指定地点的能力,建立全局一致的地图和实现高精度、鲁棒的定位对整个机器人系统而言至关重要。目前移动机器人在室外大规模场景下长时间运行仍存在定位失准现象,使最终建成的地图难以复用于机器人的导航。激光雷达相较于相机能够采集更为精准的三维环境数据,但点云
学位
石油本身作为不可再生的资源,在生活中有着及其重要且不可替代的作用。在近些年以来,石油资源的重要性也日益突出。与之相应的石油钻探开采以及录井的技术也要更新发展。由此将信息技术应用在石油录井行业也已经变成了IT行业的一个热门的研究方向。最近几年,石油企业的信息化建设取得了显著的成绩,油田的经济收益也得到了很大的提升。为了使信息技术更好的辅助油田的开采,需要更加成熟的软件来保证对相关的数据进行可视化和更
学位