金融领域中文命名实体识别研究进展

来源 :华东师范大学学报(自然科学版) | 被引量 : 0次 | 上传用户:yuntaos
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别(Named Entity Recognition,NER)作为自然语言处理的基本任务之一,一直以来都是国内外研究的热点.随着金融互联网的快速发展,迄今为止,金融领域中文NER不断进步,并得以应用到其他金融业务中.为了方便研究者了解金融领域中文NER方法的发展状况和未来发展趋势,进行了一项相关方法的研究和总结.首先,介绍了NER的相关概念和金融领域中文NER的特点;然后,按照金融领域中文NER的发展历程,将研究方法分为基于字典和规则的方法、基于统计机器学习的方法和基于深度学习的方法,并详细介绍了每类方法的特点和典型模型;接下来,简要概括了金融领域中文NER的公开数据集和工具、评估方法及其应用;最后,向读者阐述了目前面临的挑战和未来的发展趋势.
其他文献
采用湿法合成了低温(60℃)生长的三维花状NiWO4材料,并制备了NiWO4氨气传感器.采用X-射线衍射(XRD)、扫描电子显微镜(SEM)、红外光谱(IR)和拉曼光谱(Raman)等对NiWO4纳米材料的物相结构、微观形貌和比表面积进行了分析;研究了传感器对氨气、二氧化氮、二氧化碳、二氧化硫、一氧化碳和甲烷等气体的传感性能.结果表明:NiWO4对氨气显示了最佳气敏响应.在50 ppm氨气下,NiWO4氨气传感器显示出快速响应(47 s)和快速恢复(143 s).此外,还测试了材料在22.5%~97.3%
随着大数据时代的到来,金融行业产生的数据越来越多,对数据库的压力也越来越大.LevelDB是谷歌开发的一款基于LSM-tree架构的键值对数据库,有写入快和占用空间小的优点,被金融行业广泛应用.针对LSM-tree架构的写停顿、写放大、对读不友好等缺点,提出了一种基于非易失性内存和机器学习的L0层的设计方法,能够减缓甚至解决上述问题.实验结果表明,该设计能够实现较好的读写性能.
由巴比妥酸、2-吡咯甲醛、二异丙基胺基锂(LDA)为底物,一步反应制得新颖的含锂配合物1(CCDC:2032518),产物结构经X-射线单晶衍射表征.结果表明:1属于单斜晶系,P21/n空间群,a=7.0683(5)?,b=9.8429(7)?,c=12.9630(9)?,α=90°,β=105.183(5)?,γ=90°,V=870.39(11)?3,Z=2,F(000)=432.0,Mr=415.28,μ=0.122 mm-1.该含锂配合物借助分子间氢键构建了相互穿插网格的高阶组装结构.
针对基于日志结构合并树(Log Structured Merge Tree,LSM-tree)的数据库查询性能较差的问题,目前的研究工作主要集中在利用索引和缓存技术提升LSM-tree的查询性能.本文主要从以下几个方面对LSM-tree的查询优化技术进行了综述.第一,介绍了LSM-tree的基础架构,分析了影响查询的因素.第二,分析了当前的LSM-tree查询优化技术,包括索引优化技术和缓存优化技术.第三,分析了索引和缓存技术是如何提升基于LSM-tree的数据库查询性能的,并总结了一些现有的研究工作.最
大数据时代,存储计算架构分离的单写多读场景已无法满足海量数据的高效读写需求;另一方面,多个计算节点同时提供写服务还会引起计算节点间的缓存不一致.已有的研究采用全局有序的事务日志来进行冲突检测,并通过广播和回放事务日志维护整个系统的数据一致性.但该类方案由于是在每个写节点维护全局写日志,可扩展性较差.针对这些问题,提出了一个基于分区的并发控制方案:通过分区的方式降低每个写节点需要维护的事务日志,以有效提升系统的扩展能力.基于此想法,在MySQL上实现了分区多主插件,并通过实验验证了该解决方案对系统性能的影响
以左旋丙交酯(L-LA)和三亚甲基碳酸酯(TMC)为原料,辛酸亚锡为催化剂,采用本体聚合法制备了不同单体配比的二元无规共聚物(PLTMC64,PLTMC73和PLTMC82),其结构和性质经1H NMR,FT-IR,GPC和DCS等表征.采用水包油法将3种二元PLLA-TMC共聚物制成平均直径约50μm的微球,以5 wt%含量加入到磷酸钙骨水泥中进行固化时间与力学性能测试.结果表明:添加PLTMC73微球为增强相时,骨水泥压缩强度增高到22 MPa左右,且压缩模量能达到1.5 GPa.SEM照片显示,骨水
文本数据中的实体和关系抽取是领域知识图谱构建和更新的来源.针对金融科技领域中文本数据存在重叠关系、训练数据缺乏标注样本等问题,提出一种融合主动学习思想的实体关系联合抽取方法.首先,基于主动学习,以增量的方式筛选出富有信息量的样本作为训练数据;其次,采用面向主实体的标注策略将实体关系联合抽取问题转化为序列标注问题;最后,基于改进的BERT-BiGRU-CRF模型实现领域实体与关系的联合抽取,为知识图谱构建提供支撑技术,有助于金融从业者根据领域知识进行分析、投资、交易等操作,从而降低投资风险.针对金融领域文本
区块链系统采用全复制的数据存储机制,为每个节点保留整个区块链的完整副本,系统扩展性差.同时由于区块链系统中拜占庭节点的存在,导致传统分布式系统中使用的分片方案不能被直接应用于区块链系统中.本文结合纠删码和拜占庭容错算法,使每个区块的存储消耗由O(n)降到O(1),增强了系统的可扩展性.本文还提出了对区块数据进行划分的方法,在降低存储冗余的同时减小对查询效率的影响.提出了无需网络通信的编码块存储方法,降低了系统存储和通信开销.还提出了区块链节点加入和退出的动态重编码方法,既保证系统的稳定性,又降低了系统重编
实现巩固拓展脱贫攻坚成果与乡村振兴有效衔接是未来农村贫困化地区的重点工作,有效识别贫困地区两大政策的衔接程度,有利于衔接工作的顺利推进,破解农村发展不均衡不充分问题.以陕西省为研究案例,运用县域尺度贫困数据和经济发展数据,基于“分类、耦合”的思想对陕西省贫困化地区的贫困类型、振兴基础进行聚类评价,然后对两大战略衔接的难度特征、薄弱地区进行识别,并尝试提出实现有效衔接的地域模式建议.结果显示:1)陕西省农村贫困化地区可划分为集中连片特困山区、一般贫困山区、一般贫困塬区、轻度贫困地区和无贫困地区5种地域类型,
近年来,我国对金融科技领域的研发投入呈现持续增长的趋势,金融机构也正处于数字化转型的新阶段.面对当前复杂的国际形势和以国内大循环为主的双循环发展新格局,数据安全与数据质量将成为金融科技高质量发展的前提.传统金融机构与金融科技企业的深入合作,相关企业不断扩大对核心技术与复合型人才的投入,充分利用科技打造自主可控的金融科技产品和服务,促使与养老医疗相关领域的金融产品转型升级,惠及百姓民生;促进普惠金融发展,协助乡村振兴;推动产业链现代化,服务实体经济;加强绿色金融的制度建设,助力实现碳达峰、碳中和;构建金融科
期刊