基于ALBERT-CNN文本匹配技术的财务问答系统

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:wytlxj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
财务领域的知识体系复杂庞大,相关政策更新迭代速度频繁,人们日常办理财务业务可能会遇到各种各样的问题,因此需要准确高效的获取财务领域的知识。传统的方式是拨打咨询热线,但当咨询量大、线路繁忙时,用户不能及时的获取知识。随着互联网的快速发展,财务知识的获取大多来源于网络,但财务领域知识具有专业性高、私密性强等特点。用户通过网上搜索的方式难以真正的获取到有效的信息。为解决以上提出的问题,本文结合深度学习、文本向量生成和特征提取等技术,设计一种针对财务领域的问答系统。该系统可以24小时不间断的为用户高效的答疑解惑,同时提供友好的人机交互体验。在系统设计上,本文从财务问答的业需求出发,划分问答系统为文本预处理模块、文本匹配模块、问答库管理模块、历史对话管理模块、热点问题分析模块和人工服务模块,并制定业务流程来协调各功能模块,保证不同模块之间有条不紊的交互。系统使用三层架构设计,层与层之间的功能相互独立。在系统实现上,本文完成了后台的业务逻辑,并对前端界面进行展示。文本匹配模块是问答系统的核心部分,本文设计了一种孪生神经网络结构来计算文本之间的相似度。孪生神经网络有两个相同的子网络,分别处理一段输入文本,得到各自的高维度空间表征,比较其相似程度作为文本相似度。首先每个子网络使用财务语料微调后的ALBERT(A Lite BERT)模型对输入文本进行编码。然后利用添加Attention机制的多层CNN(Convolutional Neural Network)来提取文本向量之间的匹配特征以及交互特征。最后将提取到的特征合并,通过Sigmoid层做归一化处理,将输出值作为两段文本的相似度。本文分别在公开数据集和财务数据集上对文本匹配模型进行对比实验,验证了基于ALBERT-CNN特征提取技术的孪生神经网络结构可以有效的计算文本之间的相似程度,同时财务问答系统的上线测试也表现出预期的应用价值。
其他文献
近年来,基于可持续资源的能源生产变得越来越重要,太阳能作为一种清洁可再生能源,其开发和应用前景广阔,备受各国青睐。在过去的几十年中,光伏组件产量一直稳定增长,并且未来有望成为主流能源利用形式,有着不可估量的发展潜力。随着机器视觉技术在工业检测领域的广泛应用,无人机航拍巡检成为发展的趋势,利用图像处理技术对航拍光伏阵列影像进行处理与分析是航拍巡检的新要求,主要包括图像拼接、缺陷检测、光伏用地检测和太
学位
生物医学领域的研究发展日益迅速,领域文献的数量呈指数增长,如何自动有效地从这些文献中提取有价值的信息变得越来越紧迫。生物医学文本关系抽取主要是对标记的医学实体之间潜在语义关系的展现,例如药物与疾病之间治疗关系、基因之间的突变关系、化学物质和疾病之间诱导关系等。目前,关系抽取任务大多采用深度学习的方法,该方法的主要优点是不仅减少了大量的人工参与而且还能自动捕获特征。然而现有的模型仍存在以下几个问题。
学位
伴随着网络和移动智能终端的不断发展更新,用户信息呈现出一种爆炸性的增长,通过对用户信息进行数据挖掘和数据分析,可以更好的为用户提供服务,但这些数据中涉及大量敏感的个人信息,所以社交网络图在发布之前需要进行严格的隐私保护。差分隐私保护模型不依赖于攻击者所具有的相关背景知识且有严格的数学理论基础,因此在社交网络图的发布中得到了广泛的应用。目前社交网络图的发布算法大多应用了聚类的方法,但由于聚类时没有考
学位
随着用户需求增长,软件开发愈加复杂,设计模式被广泛应用于解决复杂的软件逻辑与结构问题。但软件开发和维护过程中,设计模式作为软件开发中优秀经验的总结,其信息却很难被开发人员直观地提取应用,因此从源码中识别出设计模式的应用实例的方法颇具研究意义。设计模式识别能有效帮助维护人员理解、维护及重构软件程序,也是能实现设计模式可复用性的重要前提。通过总结文献发现,设计模式识别仍有问题有待研究:(1)识别设计模
学位
随着国民经济和对外贸易的快速发展,国际、国内航运事业需求旺盛,中国的航运业已经成为全球市场最具活力、增长力的市场之一。随着航运事业的发展,来往船舶数逐渐增多,航道拥堵问题日益严重,海上交通安全和船舶航行时间长等问题也随之出现。虽然VTS在很多港口已经投入使用并积累了海量的雷达数据,但目前对这些数据的使用却不是很充分,大量的历史数据被遗弃在数据库中,还消耗着存储资源。目前各个港口的VTS基站都只是针
学位
优化问题是一个热门的研究领域。很多现实中复杂的工程和科学问题都可以被抽象为大规模全局优化问题。大规模全局优化问题具有决策变量维度高(一般超过100维)、搜索空间过于广泛以及大量的局部最优性等特点,因此从大量的解决方案中寻找最佳解决方案是研究的重点。进化算法是目前公认的求解大规模全局优化问题的卓有成效的方法。粒子群算法作为一种基于种群协作的全局寻优进化算法,以其实现简单、参数少以及收敛性能好等优点被
学位
现阶段信息数据每天都在以指数级增长,而在海量的信息数据中,文本数据是最为常见的一种。在实际的生活中大部分文本数据集分布都是不平衡的,而原始的文本分类算法大都在平衡的数据集上进行训练,当在实际的数据不平衡的情况下进行应用时,会对模型的分类效果产生较大影响,因此,如何高效的对不平衡文本数据进行分类是一个具有现实意义且急需解决的问题。本文针对不平衡文本数据集(二分类)存在的问题,从类别损失、特征提取两个
学位
近年来我国电子商务发展突飞猛进,网购人数呈指数性增长。随之而来,面对电商平台海量商品信息给网购用户带来的“信息过载”问题,基于用户选择偏好预测的商品推荐系统所蕴含的重要商业价值日益引起社会各界的广泛关注,并逐渐成为这一领域的研究热点。从实践应用来看,亚马逊早在2003年便已投入推荐系统的设计与研发,并在其网站上率先实现了基于协同过滤的商品推荐系统,同时带动了电商平台内推荐系统的广泛应用。从技术角度
学位
日本普惠保险的发展经历了从以保险商品为中心、以区域和行业普及为中心到以业态形成为中心的演变。20世纪初期,日本以简易生命保险产品快速普及普惠保险,配套设置以国家信用为担保的简易生命保险特别规则。20世纪中期,日本以共济业为中心,形成了普惠保险的区域和行业发展模式,共济规制理念和做法经历了以强调个性到注重共性的变迁。1995年放松保险业规制后,日本在立法层面创设小额短期保险业,经由特别立法扶持行业发
期刊
图像作为信息传输的重要载体,保证图像在互联网中安全的传输是一个巨大的挑战。利用混沌特性设计新密码系统,以保证信息的安全存储和传输,是当前混沌密码学面临的迫切任务。本文结合混沌动力系统与布尔网络理论,对混沌图像加密算法设计与模型构建开展了以下研究。(1)结合矩阵半张量积(Semi-tensor Product,STP)理论设计了一种高效的混沌图像加密算法。此方法打破了传统矩阵运算的束缚,使反应矩阵具
学位