基于依存句法和语义模型的复杂犯罪事件分离抽取研究

来源 :江西财经大学 | 被引量 : 0次 | 上传用户:wdj702
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
司法案件主要是由若干基本犯罪事件互相联系和组合而成,司法办案的重要任务之一是事件分析。明确被告人基本犯罪事件以支持后续的案件分析,判决和量刑,同时还可以有效地支持智能化辅助办案系统开发和研究。事件抽取任务在句子级别的其他领域已经取得了较好的效果。而在司法领域,被告人的犯罪事件事实是关注的重点,在面向司法领域复杂的多人或者多罪犯罪事件抽取任务具有以下的特征:1)复杂的多人多罪案件中往往包含多个犯罪事件相关的人物角色,对人物角色的犯罪事件描述交织在一起,存在犯罪事件嵌套和犯罪事件成分共享情况。2)司法领域的起诉文书作为半结构化的文本,其内容具有一定的表述性。为了表述通顺,部分犯罪事件描述存在省略主语、宾语等情况。针对以上特征,本文具体做了如下研究:(1)构建基于语义的犯罪事件触发词识别与分类联合模型。目前,中文事件抽取系统普遍存在标注事件语料库质量不高的问题,因此本文使用最大熵模型结合起诉书中的规则、词汇、句法和语义特征,加入条件随机场作为约束条件,构建了司法领域的触发词识别与分类模型。旨在准确识别文本中出现的犯罪事件以及犯罪事件类型。(2)引入依存句法解决事件漏抽问题。在司法领域的多人犯罪起诉文书中,存在着大量被告人犯罪事件嵌套和被告人犯罪事件成分共享的现象,容易导致后续犯罪事件分离抽取时事件成分缺失和事件漏抽。本文引入了依存句法分析,基于各种类型犯罪事件对应的触发词库和依存句法树,分析被告人犯罪事件语料的动词语法和句法结构,使得每个触发事件词对应一个事件,每一个事件对应一个被告人,解决多人犯罪起诉书中事件漏抽的问题。(3)分析缺省结构、制定对应的规则来补全相关事件成分,解决犯罪事件抽取成分不全问题。省略是中文语言中实际存在的一种普遍现象,多人或多罪的司法起诉文书具有更强的结构性和表述性。因此,为了表述通顺,起诉文书中存在犯罪事件描述存在事件成分省略的情况。本文通过构建SSDP(Syntactic Semantic Dependency Parsing)图的方式,归纳了多人或多罪起诉文书中几种常见的犯罪事件成分缺省结构,设计了相应的规则补全,解决多人或多罪犯罪事件抽取成分缺失的问题。(4)特殊事件元素论元的识别与抽取方法设计。在对犯罪案件进行分析、裁决、量刑时,一些事件元素往往会大幅度的影响案件的判罚结果。如盗窃罪中的盗窃金额,涉毒案件中的涉毒克数等。在复杂的犯罪案件中,特殊论元间存在着交叉、属于、共享等关系。为了准确的抽取这些事件论元,并且准确分配给对应的事件发生人,针对不同案件中的特殊事件论元,本文设计了相关抽取算法以及抽取规则来辅助抽取。本文提出了基于依存句法和语义模型的复杂犯罪事件分离抽取方法,通过实验以及相关横向项目来进行验证,实验结果表明该方法优于相关对比方法。从多人或多罪起诉书文本中分别抽取出了各个被告人对应的犯罪事件事实,不仅可以减轻相关领域工作人员的工作负担,也为智能化辅助办案系统的精确量刑提供了技术上的支持。以先进的自然语言处理技术为司法效率、司法公正助力。
其他文献
可搜索加密是一种支持用户在密文上进行关键字查找的密码学原语,它能够有效解决无法直接在基于传统加密方案加密的数据中进行查询的问题。在云端的密文数据集中,当用户由于自身缘故导致输入查询关键字有偏差时,仅支持精确查询的可搜索加密会导致搜索结果和用户预期相差较远,甚至没有搜索结果。而支持模糊关键字查询后,云服务器将根据查询关键字搜索与其尽可能相似的文件,从而有效避免上述问题。搜索精度和搜索效率是衡量可搜索
学位
法律文书是司法机关及律师等在解决案件时使用的文书,包含大量司法信息,如何高效地分析和利用这些信息具有重要研究意义。现有的法律文书智能化处理大多集中在法律实体识别和法律实体关系抽取上,对于事件抽取的研究非常少。民事判决书作为日常中最为常见的文书类型,具有一定的普适性,同时判决书作为判案的判决结果,将其作为数据来源可以获得案件细节的详细描述。本文从北大法宝上下载民事判决书作为原始语料,针对民事判决书进
学位
安全生产关系人民利益、关乎社会平稳发展。同时,也是企业能否平稳发展的基础。随着信息化、智能化的不断加深,隐患自查、自检上报平台的应用,企业监管部门以及企业都存储了大量的企业隐患文本数据。如何充分利用这些数据甄别出不负责的企业,为政府监管部门在有限人力资源的情况下实现精确检查、精准执法提供依据,对企业提高自我防范意识、避免生产事故发生具有极为重要的意义。针对安全隐患文本内容较短、特征矩阵稀疏等特性且
学位
装箱问题(Bin-packing problem)是一类经典的带几何约束的组合优化问题。可以将这类问题看作在一定的约束条件下,将若干不规则零件以某种互不重叠的方式放入一定大小的空间中,使得总体空间利用率最大化。装箱问题被广泛应用于面料裁剪、印刷排版、机械制造等工业领域也是任务调度、资源分配等计算机科学领域的重要环节。其中,二维装箱问题具有很高的复杂性,属于NP难问题,用一般的数学方法进行求解较为困
学位
随着信息化程度的日益提高,计算机软件已经被广泛应用于技术产业和国民生活的各个方面,软件系统的规模和复杂程度也在不断提高。软件测试作为提高软件质量、保证软件可靠性的重要手段,在软件开发过程中发挥着重要作用。在众多软件测试技术中,蜕变测试(Metamorphic Testing,MT)作为能有效减轻软件测试中预期输出问题压力的测试技术,目前被广泛应用在人工智能、搜索引擎等缺乏测试预言(Test Ora
学位
随着计算机视觉技术的发展,光学字符识别(Optical Character Recognition,OCR)的精度和速度逐步提高,在文档扫描、证件识别中得到了广泛的应用,然而,当文档中包含大量公式时,因公式具有复杂的结构,现有的文档识别系统在识别公式时时常语义不明,甚至出现乱码,精度依然有待提高。现阶段针对包含公式的文档识别的研究主要采用先拆分、后识别的步骤,其中对于公式块的识别主要以基于深度学习
学位
随着计算机算力的提升,深度学习技术在目标检测领域得到了全面的应用,让目标检测技术的发展实现了飞跃,并应用到了文本检测、行人检测、自动驾驶等诸多领域中。但是,在生活垃圾目标检测领域还存在需要改进的问题:一方面在检测精度上还存在改进空间;另一方面由于生活垃圾目标检测领域的应用研究相对较少,导致生活垃圾数据集少且规模小,而生活垃圾自动分拣流水线上的目标检测构件对模型精度要求较高,需要较丰富的训练数据集进
学位
伴随着计算机技术的发展,以及在国家编制《“十四五”文化产业发展规划》以推动文化产业高质量发展的背景下,将深度学习和知识图谱技术引入中国传统文学是当下研究热点之一。其中,古诗文是中国传统文学的瑰宝,更加受到学者们的关注。因此,利用深度学习和知识图谱技术对互联网中海量的古诗文资料进行处理与研究有着重要学术意义和应用价值,并为中国传统文学领域更广泛和更深层次研究提供一种思路。本文通过调查问卷获得用户对古
学位
<正>思维导图作为一种有效的教学工具,教师通过运用思维导图的文字、图形、图标等构成元素,能更加直观地为学生展示文章脉络结构以及主要内容,这对学生把握文章的中心思想,以及理解文章的根本内容重要帮助,同时,教师运用思维导图对激发学生的习作兴趣以及提高写作能力都有重要意义,可以保证小学语文习作教学能高质量进行,为学生语文学习生涯的学习奠定一个良好的基础。
期刊
当前,区块链信息技术逐渐在著作版权保护、物流运输综合管理、供应链金融、产业链管理、跨境支付等要求高度隐私和极度敏感的多个行业中广泛应用。共识算法,作为整个区块链的关键引擎与核心,同时,在区块链专业应用技术系统中扮演者基础性的支撑作用,是区块链安全性的保障,对于整个区块链体系的稳定性和其他相关性能都具有相当重要的意义,对于区块链系统能够健康、高效的运行有着举足轻重的作用。共识算法不但为实现区块链分布
学位