基于自动建库的检务公开智能问答系统设计

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:huangsheng200888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,大力推进大数据、人工智能等现代科技在检察工作中的应用,实现对检察工作的全程规范化、智能化管理已经成为一大趋势,人们也期待一个可以给大家带来便利的智能问答系统。本文针对检务公开这一特定领域设计了基于自动建库的多策略混合智能问答系统,以人机对话的形式回答用户提问的有关检察院办事流程、法律法规、案件法律咨询等问题,返回的答案一般唯一且比较准确,不需要用户再次进行筛选,大大节约了用户的时间,解决了传统搜索引擎给用户带来的搜索受挫问题,从而提供更优质的检务公开信息服务。本文具体研究内容如下:(1)问句生成算法研究与改进。首先对目前主流的神经网络问句生成模型进行研究,并在中文数据集以及中文法律数据集上对算法进行模型训练和实验验证,之后再对段落级神经网络问句生成模型进行改进,增加了一个单独的答案编码器。最终,改进后的模型解决了生成问句疑问词与答案类型不匹配以及问句内容与答案内容不相符的问题。(2)采用自动建库的方式构建检务公开问答系统知识库,提出利用问句生成算法构建领域FAQ库。问答系统知识库包括问答库和检务公开领域语料库。其中,问答库包含两个部分:检务领域问答库和闲聊对话库。首先通过从相关网站爬取数据的方式获取了大量检务领域问答对数据和相关法律法规语料,然后利用问句生成算法根据法律法规文本自动生成一部分检务公开问答对,共收集问答对10万对,相关语料371篇。闲聊对话库主要通过公开语料库收集,从中筛选出符合场景的问答对数据。另外,针对特殊情况自定义了一些问答对,共收集闲聊对话数据5万条。最后,对所有数据进行类别的定义与标注,并且按照类别进行存储。(3)问答系统关键技术问句分类与问句匹配研究。首先选取在各个自然语言处理任务都表现优异的BERT算法作为问句分类算法,并在已标注的数据集上进行模型训练与实验验证,模型在将问句划分为检务领域问句和闲聊问句上准确率在99%以上,对检务领域问句进行多分类准确率达到93.67%。然后主要对基于杰卡德(Jaccard)系数并结合《同义词词林》的相似度计算算法和BERT相似度计算算法进行研究,并在大规模中文问题匹配语料库(LCQMC)和中文银行问题语料库(BQ corpus)对算法进行问句相似度计算实验。表现最佳的BERT模型在LCQMC数据集和BQ corpus数据集上的召回率、准确率、F度量值等问句相似度自动评价指标都比较高。将BERT模型应用于问答系统的问句分类和问句匹配中,问答系统的准确率得到了明显的提升。本文设计了基于常问问题集(Frequently Asked Questions,FAQ)库的多策略检务公开问答系统。问答系统基于本文创建的FAQ库,利用了BERT问句分类和问句匹配等算法可保证系统的响应速度以及准确率。当用户进行提问时,用问句分类算法对问句分类,如果是常问领域内问题,则采用面向检务FAQ库的问答策略,并进一步对问句进行分类,根据检务领域问句类别匹配FAQ库中对应类别的问句,以缩小检索范围;如果是闲聊问题,则采用基于闲聊库的问答策略,直接匹配闲聊对话库中的问句,以减少系统无回复的情况。采用自动建库的方式构建领域问答系统知识库,为其他领域构建问答知识库提供了技术参考。
其他文献
近年来,云计算服务为企业的发展提供了更多的灵活性,推动了云计算爆炸式发展的同时,不可避免地带来了云资源的“闲置浪费”。因此,如何对云资源进行有效分配、合理定价,已经成为工业界和学术界广泛关注的议题。亚马逊EC2 Spot实例引入了云资源拍卖的概念,有效地解决了云资源的浪费问题,也大幅度降低了企业使用云资源的成本。目前的研究工作主要专注于云资源拍卖的高效性、公平性和经济效益最大化,缺少对云资源拍卖投
现代人类社会发展迅速,对各类资源消耗越来越大。陆地资源已经不能满足人类的需求,随着人类对海洋资源开发的进程不断加快,水下无线通信网络的研究变得更加重要。对于目前浅水无线通信网络来说,浅层水面和水下设备的数据传输安全防护等级较弱,仅依靠通信波形及通信协议难以保证通信安全;同时水下通信网络节点硬件部分所用芯片过度依赖国外,同样是信息安全隐患;此外现有水下通信网络节点体积较大、功耗高,仍是水下通信技术所
推荐系统从用户的交互信息中学习用户偏好,生成个性化推荐。但现有的推荐系统往往存在数据稀疏性高、可解释性差、模型训练难等问题。面对这些问题衍生了两种主流的研究方向:一般推荐算法和序列推荐算法。一般推荐算法以协同过滤及其变体作为主要内容;序列推荐算法以基于循环神经网络的方法作为主要内容。其中,序列推荐算法通过考虑用户交互的时序信息,额外考虑了用户偏好的动态变化,更符合现实生活中的实际情况。本文基于现有
随着游客对旅游需求的增长,各地开始逐渐重视起本地的旅游业发展,旅游经济发展占当地经济发展的比重也越来越大。然而在旅游业快速发展的同时也产生了许多环境问题,使旅游地的生态环境日益恶化。地质公园旅游作为近年来新兴的旅游地类型,近年来旅游情况持续火热,但与其它旅游地类型相比,对地质公园生态情况的研究相对较少,因而有必要拓展地质公园旅游生态安全研究。三清山世界地质公园位于江西省上饶市东部,是江西省热度排名
进入21世纪以来,随着控制技术、计算机技术、微型传感器技术、无刷电机技术等领域的迅速发展,多旋翼无人机因具有可空中悬停、垂直起降的优点,能适应于狭小的飞行空间,具有较
审计费用一直是国内外会计学研究领域关注的议题。就已有的文献来看,对审计费用的研究多集中在事务所特征以及被审计单位特征上,近年,随着供应链成为关注的对象,客户特征也逐步被考虑进审计费用影响因素的范畴。学术界已有相当数量文献研究客户集中度,对于其他客户特征的研究较少。本文选择客户与公司之间的地理距离作为客户特征进行研究。中国不同地区的文化特色和发展水平差距不一,同时高铁的快速发展也带动产业经济发展,将
随着网络技术的日益发展,物联网终端设备的大量接入,人们生活方式的智能化转变,使用的终端设备类型和数量也稳步上升。随着5G时代的到来,这种增长趋势会一直延续,并且接入终端的数量和类别在未来的一段时间内都将保持增长的态势。各种终端设备的功能、性能、价格、用户群体都不一样,分析网络终端结构,在一定程度上可以通过数据反应当前用户使用终端的情况和变化。移动运营商可以在此基础上根据用户的终端使用情况开展有差异
耐火衬里和托砖架都是水煤浆气化炉重要的组成部分,耐火衬里起到隔绝高温、蓄热、流场约束以及抗熔渣等作用,托砖架则用于支撑耐火砖的重量,两者均影响气化炉的运行周期和稳定性。炉内高温环境会导致耐火衬里和托砖架热应力过大,造成耐火衬里损坏,托砖架无法支撑耐火砖,因此分析耐火衬里和托砖架的温度和应力分布能有效避免应力集中并优化耐火衬里和托砖架结构。本论文共分两个部分:第一部分研究了气化炉K砖部位耐火衬里及钢
碳纳米管(CNTs)能显著提升复合材料热学性能和力学性能而受到了越来越多的关注,然而,碳纳米管之间强的作用力和聚集的性质,如何将碳纳米管均匀稳定分散到环氧树脂中制备高性能复合材料仍然是一大难题。本文通过硫醇-烯烃点击反应,提出了一种高效制备巯基功能化碳纳米管的方法,制备了不同结构的巯基功能化碳纳米管。功能化碳纳米管在乙酸乙酯和环氧树脂中具有良好的分散稳定性。然后与双酚A型环氧树脂(DGEBA)复合
光电探测器是根据光电效应,将入射光信号转化为电信号进行输出,实现对光信息的采集。本文围绕提高硅基光电探测器响应特性的目标,开展纳米线硅制备、光学性能以及光电响应特性优化等研究,主要获得了以下结果:(1)纳米线硅制备:优化了金属辅助化学刻蚀制备纳米线硅工艺,通过改变镀银时间、刻蚀时间和反应温度等工艺参数,实现了纳米线硅的可控制备。实验确认刻蚀过程中银纳米颗粒存在横向输运,嵌入纳米线硅表面,随退火形成