【摘 要】
:
随着大数据和人工智能的发展,越来越多的电子信息进入日常生活。网络中存在海量的非结构化电子文本,给用户带来便利的同时,也带来了信息冗余繁多的困扰,如何科学地获取需要的非结构化电子文本,是一个迫在眉睫的问题。信息抽取技术的出现能够有效解决该问题,而事件抽取是信息抽取的重要方面之一。事件一般是指某特定时间点出现在特定范围内的事件或状态变化,包括了一个或多个角色参与的一个或多个动作。中文事件抽取研究关注较
论文部分内容阅读
随着大数据和人工智能的发展,越来越多的电子信息进入日常生活。网络中存在海量的非结构化电子文本,给用户带来便利的同时,也带来了信息冗余繁多的困扰,如何科学地获取需要的非结构化电子文本,是一个迫在眉睫的问题。信息抽取技术的出现能够有效解决该问题,而事件抽取是信息抽取的重要方面之一。事件一般是指某特定时间点出现在特定范围内的事件或状态变化,包括了一个或多个角色参与的一个或多个动作。中文事件抽取研究关注较多的是医疗、金融、司法事件等方面。如今各行业中对电子合同文本的需求不断增大,同时也产生了过多无用的合同文本信息,有利用价值的合同数据较少。伴随电子合同文本的广泛应用,在中文合同文本上进行事件抽取也出现大量的研究,这对合同签订、合同中相关法律知识学习等有重要的价值。本文主要研究了合同文本,首先构建了合同中文数据集,语料获取来源于企业中过滤掉隐私信息的真实合同,涵盖了常见的买卖类、建设工程类、技术服务类、承揽类等合同,当然也有部分来自互联网上的合同范本模板,它们都不带企业或个人隐私方面的信息。还定义了具体的合同事件触发词及合同事件元素类型,对其进行人工标注,经过这样获得了合同中文事件抽取数据集。其次,详细分析了基于合同语义的中文事件触发词抽取模型构建的整个过程,该方法融合了CRF和Bi LSTM进行合同文本中文事件触发词抽取,经过字符嵌入的方法将文本进行向量化处理,利用Bi LSTM抽取出相关的特征向量,结合注意力机制给予关键特征更高的权重,通过候选词所在的位置实现动态多池化操作,最后从输出层输出事件触发词的识别结果。最后,为了从合同文本中获取中文篇章级事件信息,采用基于联合标注和篇章一致性的中文事件抽取模型,将实体事件联合抽取与基于Lattice LSTM的篇章一致性中文事件抽取模型进行了融合。同时,提出了合同文本的篇章级中文事件抽取模型,该模型首先采用BERT预训练实现了文本的向量化,然后引入了LEBERT模型,鉴于中文句子被转换为字符-单词对序列,LEBERT把字符与词典特征看成输入,再将候选词与触发词经过动态多池化过程,最后输出合同中文事件抽取的结果。与其他基准模型相比,本文提出的模型在合同中文数据的事件抽取实验中取得了较好的结果,验证了结合预训练模型技术的LEBERT模型的有效性。
其他文献
虽然行人轨迹预测模型在计算机视觉和机器人领域取得了巨大的成功,但其体系结构和训练方案的设计依赖于繁重的人工工作和领域知识,对普通用户不友好。此外,现有的研究忽略了联邦学习场景,未能充分利用具有丰富的实际场景的分布式多源数据集来学习更强大的行人轨迹预测模型。本文弥补了上述缺陷,并提出了ATPFL框架来帮助用户联合多源轨迹数据集来自动设计和训练一个强大的行人轨迹预测模型。ATPFL通过分析和总结现有的
随着互联网服务的发展,搜索引擎、推荐系统等互联网应用越来越深入我们的生活。在这些应用中,关键词在提高对用户搜索意图的理解、改善内容推送的精准度等方面具有非常重要的作用。使用关键词的前提是能够从数据中抽取到大量高质量的关键词,所以研究如何高效地从数据中抽取关键词具有十分重要的意义。关键词主要来源之一的用户搜索-点击数据直接由用户产生,具有很强的随机性和长尾性,而传统的无监督抽取方法过于依赖统计特征和
异丁酸是用途广泛的化工原料,开发异丁醛氧化生产高附加值异丁酸,具有良好的经济效益,且意义重大。本文以溶剂热法制备得到的Fe3O4纳米粒子为改性剂,制备了磁性钴基Fe3O4@Co(x)-ZIF和Fe3O4@Co(y)/Zn-ZIF催化剂。用XRD、BET、FTIR、XPS、SEM和TEM等表征手段,对催化剂进行了表征分析。以异丁醛氧化合成异丁酸为模型反应,研究了不同钴含量和不同钴/锌摩尔比对催化剂异
对于骨缺损或骨折等疾病,传统方法是通过植入骨修复材料(如可植入的医用金属材料、生物陶瓷材料等)来进行临床治疗。大多数骨缺损的形状都不规则,骨修复材料无法很好地将整个骨缺损处填充,因而不能与骨组织之间形成良好的接触,影响骨的愈合和再生。最主要的缺陷是骨修复材料与骨组织界面之间的结合能力差。临床中常用的骨粘合修复材料,如聚甲基丙烯酸甲酯(PMMA)和磷酸钙(CPC)骨水泥,对骨组织界面有弱粘附性,但其
由于航空航天技术的飞速发展,空间目标视觉检测成为该领域的重要技术支撑。但太空环境中光照情况十分复杂,光照不均匀、极端背光等因素直接导致背景与前景目标判别困难,检测算法无法识别目标物体。此外,空间目标视觉检测的安全性存在部分隐患,攻击者通过在输入数据中添加干扰对算法进行对抗攻击,导致检测算法失效,甚至误识别。为解决上述两种场景下检测算法失效的难题,本文提出了低照度下的空间目标视觉检测算法和强对抗下的
电磁轨道炮采用电磁发射技术,通过电流在强磁场产生的安培力推动弹丸加速,相比于传统火炮具有极限速度高,隐蔽性好,调参简单等诸多优势,是当今环境下最具发展潜力的武器之一。电磁轨道炮内弹道设计需要考虑多个评价指标,适合通过多目标进化算法求解优化问题寻找最优参数。但目前的研究存在以下问题:1)电磁轨道炮内弹道优化问题具有复杂的帕累托前沿面,传统的多目标进化算法难以保证解集的收敛性与分布性;2)通常的电磁轨
运算教学中应该抓住知识本质,以图明理,借助数形结合,帮助学生将所学的知识结构化,形成知识体系,深化数学理解。
当前国内外治安环境形势日益趋于复杂严峻,存在诸多不稳定因素,诸如恐怖分子等,因此很多行业对安全管理提出新的要求,对安检设备的需求量也在不断增长。毫米波具有很好的穿透能力,可以轻松穿过衣物,即使物品隐藏在衣服下也可以轻松被检测出来,并且毫米波成像清晰度高,很适合应用于人体安检,有很大的发展潜力。毫米波收发天线数量较多,成本较高,如何降低天线数量将是一个研究方向。本文从满阵情况着手分析,从二维成像扩展
随着新能源的不断发展,锂电池正在被广泛的使用,其具有体积小能量密度高等优点,但是锂电池也很容易引发一些安全问题。通过对锂电池的剩余使用寿命进行预测能够对电池的健康情况有一定的预估,也能给使用人员提供一些相关的指导意见。本文分别使用趋势外推与端到端预测对电池寿命进行预测,并使用MIT-Stanford-Toyota数据集对模型的预测结果进行评价。电池的容量能直接反映电池的健康程度,利用历史的容量曲线