面向司法文书的文本智能纠错与质量估计方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xpbear
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了解决司法文书的语法错误纠正及文本质量估计问题,本文通过多种方法及实验研究上述问题的解决方法。通过研究当今研究现状,了解当前领域的常用解决方案,并融合司法文书相关特征,对于司法文书文本纠错问题,提出面向司法文书的基于规则和语言模型的纠错方法以及基于深度模型的纠错方法;对于司法文书文本质量估计问题,提出基于语义理解的文本质量估计方法。通过实验,证明上述方法可以较为有效地对司法文书中的语法错误进行纠正并且准确合理地估计司法文书的文本质量。本文提出了面向司法文书的基于规则及语言模型的纠错方法以及融合了生成对抗框架的文书文本纠错方法,并与主流方法进行对比从而证明其有效性;同时提出了基于语义理解的文本质量估计方法,并辅以文书结构化处理,从而更好地对司法文书进行文本质量估计。对于语法错误纠正任务,无论是基于规则的方法还是基于神经网络的方法均被证明较为有效,但不同方法所擅长纠正的错误类型则较为不同。为了最大化模型纠错效果,现今许多较为优秀的文本纠错方法会将错误分级分类逐个解决。本文的纠错方法同样继承了这一思路。首先利用基于规则及语言模型的方法纠正错别字等浅层错误,之后利用深度模型方法解决深层的语法错误。并且在利用深度模型方法前将待纠错文本中的错别字错误纠正会进一步提升深度模型的纠错效果。在基于语言模型的错别字纠错方法中,本实验在借鉴pycorrector中的基于规则和语言模型的方法的同时也进行了多方面的优化,使得面向司法文书的错别字纠正效果得以进一步提升。为了使语言模型学习到的规则更加符合司法文书文本特点,首先利用Bi LSTM+CRF的实体识别方法构建司法文书词汇库,之后进一步利用面向司法的混淆词典匹配方法、音近型近字典匹配方法、编辑距离方法以及基于n-gram语言模型的方法对司法文书中的浅层错误进行纠正,且借此对深层语法错误的纠正进行铺垫。对于深层语法错误的纠正,考虑到人工成本等问题,本实验将文本纠错任务看作单语翻译任务,利用机器翻译模型,将待纠错文本翻译为正确文本,并且利用构建的包含司法文书信息的“错误-纠正”语料对语料库对模型进行训练。首先利用LSTM+Attention方法及基于自注意力的Transformer方法进行纠错的实现。之后为解决上述两方法中存在的暴露偏差问题,引入了生成对抗模型。基于Seq GAN的思想,利用蒙特卡洛树搜索及策略梯度方法解决了生成对抗模型用于离散文本数据时存在的梯度难以回传问题。通过实验证明了以基于自注意力的Transformer模型作为生成器的生成对抗模型在司法文书文本的纠错任务中有相较其它方法更为优秀的效果。为辅助司法文书文本质量优化,本实验提出基于深度模型的文本质量估计方法。为了使司法文书文本特征同样计入质量估计评价因素中,通过采用预训练模型BERT对司法文书文本进行融合语义信息的词向量的抽取,并利用深度学习方法实现基于语义理解的司法文书质量估计方法。同时对司法文书进行结构化处理,通过对处理后的文书进行模板匹配,辅助司法文书的质量估计。并通过实验证明此方法在文本质量估计中的有效性。
其他文献
随着软件项目需求的急速增长,在软件设计与实现的过程中难免会存在一些缺陷。当软件项目的使用者以及测试人员,发现程序运行过程中出现与预期结果不一样的情形时,会及时向缺陷追踪管理系统报告自己发现的缺陷。但对于大型开源软件项目而言,缺陷追踪管理系统每天都会收到大量的缺陷报告。如果依靠开发人员手动检查并寻找相关源代码所在位置,是一件极其耗费时间与精力的事,因此将缺陷报告中的缺陷自动定位到相关源代码就显得至关
随着当今技术的快速发展以及数据产生方式的多样化,人类所拥有的数据规模日趋庞大,海量数据带来了客观的数字价值,同时也在数据质量方面带来了更多的挑战。时间序列数据是伴随物联网的飞速发展产生的数据,工业界中的时间序列数据往往存在数据异常、数据乱序、属性值缺失、属性值错位等问题,其中属性值错位问题相关的研究比较少,但该问题在工业场景中十分常见,因此研究该问题具有重要的意义。本文从面向实际的数据流场景出发,
理解在软件仓库中执行的维护活动可以帮助软件从业者减少维护成本,做出关于资源分配的决策,从而提高效益。对于大多数软件系统来说,bug是通过软件仓库的问题追踪系统来跟踪的,代码变更是以提交给源代码控制库的形式来合并的。因此,检查软件开发的这些基本工件(新的错误报告或提交)来实时检测bug是很方便的。本文的目标是自动对软件开发过程中的一系列提交进行高精度分类,将提交分类为bug修复相关或与bug修复无关
近几年,以MOOC平台为典型代表的在线教育平台正迅猛发展。在线教育没有中高考等门槛,没有必须在某个地方才能学习的要求和弊端。这让每个人都可以平等地享受到名牌大学的优质教育,学习者可以根据自己的兴趣和需求,自由地选择有兴趣的,流行的或者是大家都称赞的课程。但是,这在为学习者学习提供极高的便捷性的同时,也割裂了传统课堂学习环境下,学习者和其他人的直接接触。由此导致了学习者总是习惯于独自学习,没有动力去
在实际的深空探测任务中,当探测阶段处于接近段时,探测器距离小天体较远,搭载在探测器上的窄视场相机无法清晰地观测到小天体表面的纹理信息,只能观测到轮廓信息。在此阶段准确恢复出的小天体模型,会为近距离详细测绘阶段探测规划提供依据,同时为近距离高精度小天体三维重建任务提供初始模型。如何应用小天体的轮廓信息准确恢复其三维模型对于小天体探测任务具有重要意义。本文从相机外参数精准、相机外参数存在误差两方面出发
近年来,人工智能技术(AI)已经在很多领域获得了极大的发展,但高精度机器学习模型往往依赖大量的有标注数据,而在很多诸如医疗、军事等实际的应用场景中,样本的获取非常困难,标注也需耗费高昂的人力成本,这极大的限制了AI的应用。此外,现在的机器学习模型越来越庞大,利用大量数据从头训练需消耗巨大的计算资源,然而,人类却具有利用少量样本快速学习的能力。因此,使机器也像人类一样具有在少样本条件下进行鲁棒性学习
考试是一种严格的知识水平鉴定方法。通过考试可以考核学生的学习能力和知识储备。为了保证考试结果的公正、公平性,考场必须要有很强的纪律性和约束性,并且专门设置有主考、巡考等考场工作人员监督考试过程,绝对禁止任何形式的作弊行为,否则作弊考生将要承担法律责任和刑事责任。传统的监考手段主要依靠人力监考,即在每个考场设置相应的考场工作人员进行监考、巡考、处理考场突发情况等事务。大规模的集中考试会消耗考试机构大
随着计算机软件的蓬勃发展,软件漏洞的数量也飞速猛增。漏洞修复成为越来越重要的问题,传统的代码审查对于软件从业人员专业素养要求较高,而且随着软件规模的增大,仅依靠代码审查无法满足漏洞检查的要求;基于规则的漏洞自动化检查技术对代码进行检查需要依靠专家所定义的规则;传统机器学习方法对漏洞进行检查需要人工提取特征;近年来深度学习的发展为漏洞检测提供了新的研究方向。然而现有的研究存在对代码的结构信息利用不全
阀门轴是决定阀门质量和可靠性的关键零件,其加工方面的瓶颈近几年已基本解决,检测方面却形成短板效应:尺寸公差主要靠人工检测,形位公差主要靠设备保证,对于加工后的变形则主要靠零件返修。使用落后的检测方式难以保证航天产品的可靠性,因此研究设计一套专用的阀门轴类零件作用直径自动测量系统是十分有必要的。本文提出了一种轴类零件作用直径自动测量系统的设计方案,设计采用线性CCD对待测轴类零件直径与作用直径进行非
随着互联网时代的到来,信息化已经成为当今社会的趋势。随着计算机技术在工业界、产业界以及人们日常生活中的广泛应用,产生了海量的数据。在海量数据中,往往包含着丰富的信息,有待于发掘和分析,为智能化时代的智慧问答、辅助决策、推荐系统等提供更加有力的支撑手段和理论依据。因此,从海量的数据中提取有效的信息,并归纳总结成能够为各行各业提供帮助的知识,已经成为大数据时代人们的共同目标。在人工智能技术、机器学习技