【摘 要】
:
随着人工智能的发展,重复劳动可以交由机器自动完成。在法律文件自动解析和阅读领域,研究对于合同文件的内容解析和简单审核,可以减轻人工审核合同负担。本文以住房租赁合同为例,进行合同条款完整性检测。在此过程中,主要完成工作可以概括为3点:(1)收集合同模板数据训练多类分类模型。针对卷积神经网络方法使用全词表,训练参数多的问题,对TF-IDF算法进行改进,提取类别关键词初始化嵌入层,减少其训练参数。实验结
论文部分内容阅读
随着人工智能的发展,重复劳动可以交由机器自动完成。在法律文件自动解析和阅读领域,研究对于合同文件的内容解析和简单审核,可以减轻人工审核合同负担。本文以住房租赁合同为例,进行合同条款完整性检测。在此过程中,主要完成工作可以概括为3点:(1)收集合同模板数据训练多类分类模型。针对卷积神经网络方法使用全词表,训练参数多的问题,对TF-IDF算法进行改进,提取类别关键词初始化嵌入层,减少其训练参数。实验结果表明,经过优化后的卷积神经网络,在合同模板数据集上,训练参数更少,分类性能较原来方法略有提升,且优于传统分类方法。(2)使用半监督方法将合同模板中文本段进行条款类型标注。基于数据互连接和回译来增强文本段数据,使用预训练的BERT(Bidirectional Encoder Representations from Transformers)完成半监督学习中的模型训练工作,经过迭代筛选,完成住房租赁合同的条款数据集构建。(3)使用条款数据集训练条款识别模型,用于检测合同中已有条款,从而推导缺失条款。针对基于神经网络的模型中,多标签分类模型常忽视标签相关性的问题,使用GCN(Graph Convolutional Network,图卷积神经网络)构建标签潜在语义学习模型,结合BERT进行特征提取,完成条款数据的多标签分类任务。在2个数据集中,GCN分别结合卷积神经网络以及BERT进行实验,实验结果表明GCN对于多标签任务的相关性建模确实有效。通过与基准方法进行对比,验证了本文设计的BERT-GCN模型的有效性。除了完成以上研究工作,本文将实验中训练的模型进行整合应用,实现输入住房租赁合同文档,输出带有风险提示的检测文档。
其他文献
大连石化公司原有设备管理模块并未实现设备管理体系的落地,没有实现公司各类设备的全过程、精细化、标准化管理。公司无法实现对设备的全过程监控,无法及时了解设备故障、检修情况,无法提供对设备基础信息的管理,没有形成完善的设备管理档案,无法为公司设备管理部门提供设备管理的决策支持。从大连石化设备管理全局来看,当前的设备管理成本较高、管理效率较低,设备配置、保障设备安全及提升设备管理水平不高。面对这样的问题
数字全息技术是一种三维成像技术,它利用图像传感器通过干涉条纹的形式记录物体的信息,并在重建时恢复光场强度和相位,还原物体的三维信息。数字全息技术因其光路简单、记录和再现灵活的优点,被广泛用于颗粒场、速度场等领域的检测。颗粒场全息图记录了颗粒场中各个颗粒的信息,通过对全息图进行预处理、全息重建、景深拓展、颗粒识别、颗粒定位等一系列的操作,最后可以获得颗粒的三维坐标和粒径信息。数字全息技术在工程过程的
电解水制氢在解决日益增长的能源需求和环境污染方面受到了广泛的关注。由于电解液中析氢和析氧的两个半反应中,析氧反应的四电子转移过程复杂,并且对动力学的要求更高,因此,
膜污染是影响膜生物反应器发展的重要限制因素,胞外聚合物被认为是导致膜污染的主要原因之一。对胞外聚合物的组成的识别和定量是研究膜污染的基础。本文对膜生物反应器胞外
微电子技术的飞速发展对集成电路的内部互连方式提出了更高的要求,电互连在延时等方面逐步展露弊端,使得光互连走入大家的视线。光互连利用光源将电信号转换成光信号,并通过一定的耦合方式将光信号传输到光探测器中,在光探测器中将光信号还原为电信号。光互连具有延时小、信号之间互不干扰的优点,是传统金属互连的最佳替代方案之一。基本的光互连系统由光源、光波导和光探测器组成。III-V族光源复杂的制造工艺带来成本高的
纸质文物包括珍贵的古籍、书画,以及重要的手稿、信件、档案、报刊等,具有独特的文化和历史价值。随着时间的流逝,作为信息载体的纸张逐渐劣化,致使这些纸质文物面临消逝的危
随着时代的迅猛发展,高新技术已经逐渐融入我们的生活,互联网已经成为我们生活中必不可少的一部分,例如:淘宝已经代替了传统购物方式;支付宝、微信已经逐渐代替了现金;人与人之间的沟通联系方式已经由前几年的电话、短信逐渐转变成现在的微信、微博。这些技术都离不开互联网产业的迅猛发展,由于网络业务的普及性和大众性,网络业务的安全成为人们重点关心的问题,进行网络流量的异常检测将成为保证网络业务安全的关键。常规的
日常生活中,人们为了提高自己的阅读效率,会经常不间断的进行眼跳来使我们的注视点落在中央凹区域。Yan等人发现了汉语阅读中的偏好注视位置(PVL)曲线。当只有单次注视时,PVL曲线在词中心附近达到峰值,而当在首次阅读中有多次注视时,在首次注视即达到峰值。Li等人认为当注视点位于词中心时,汉语词中的所有字都会被加工,读者可以在不知道词边界的时候就能迅速决定眼跳进入词中心。Liu等人提出了动态调整假说,
词频是能够显著影响阅读表现的重要变量之一,在汉语和拼音文字的研究中,均发现了显著的词频效应。词频作为词汇加工难度的指标,在关于阅读的各种研究中都发现了比较稳定的效应,阅读者在高频词的阅读中表现出更短的注视、更少的回视和更高的跳读率。但是,最近一些研究发现了一些用词频效应无法进行解释的现象,例如语境多样性效应,在目标词的语境多样性匹配的条件下,词频的主效应消失。此外,在拼音文字中有大量关于同形异义词
目的检测Lgr5与肿瘤恶性程度以及肿瘤干细胞(Cancer Stem Cells,CSCs)干性是否存在相关性,建立人结直肠癌Lgr5+CSCs模型,探究炎症环境对CSCs增殖与凋亡的影响及其分子机制。方