面向民事判决书的事件抽取研究

来源 :江西财经大学 | 被引量 : 0次 | 上传用户:liuln6
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
法律文书是司法机关及律师等在解决案件时使用的文书,包含大量司法信息,如何高效地分析和利用这些信息具有重要研究意义。现有的法律文书智能化处理大多集中在法律实体识别和法律实体关系抽取上,对于事件抽取的研究非常少。民事判决书作为日常中最为常见的文书类型,具有一定的普适性,同时判决书作为判案的判决结果,将其作为数据来源可以获得案件细节的详细描述。本文从北大法宝上下载民事判决书作为原始语料,针对民事判决书进行句子级别的事件抽取。事件抽取主要分为三个方面的任务:事件类型识别、触发词获取和事件元识别。针对事件抽取,论文主要进行了以下四个方面的工作:(1)民事判决书收集和与预处理。本文从北大法宝上下载了合同纠纷、婚姻纠纷、交通事故纠纷、物权纠纷、人格权纠纷、继承纠纷、物业纠纷、财产纠纷八类文书,每种类别各250篇,共计2000篇;经过正则表达式处理、分词、去法律领域停用词等预处理之后得到包含法院认定事实判决结果的语句共11277条。(2)事件类型聚类。由于现有的法律法规没有对法律事件类型进行统一的定义,其类型又多种多样,而聚类是无监督学习方式,能对相近数据自动聚类,所以本文对预处理后的民事判决书语句采取聚类的方式来获取事件类型。本文使用K均值聚类方法进行聚类,并采用聚类有效性测度指标轮廓系数来判断最优聚簇个数,实验表明聚为8类时轮廓系数最高,此时聚类的准确率达到82.12%。(3)触发词识别。本文设计了一种Text Rank(文本排序)算法和信息熵相结合的方式,获取了句子集合中的触发词集,该集合与人工标注得到的触发词集基本吻合,本文也根据触发词集,判定了聚簇事件类型名称。(4)针对已经得到了事件类型和触发词的句子集合,本文定义了不同类型事件对应的事件元。人工标注出其中的相关事件元,进行下一步的事件元识别任务。将上一步得到的数据按照8:2划分训练集和测试集进行模型训练和测试。本文使用一种结合ALBERT(轻量级预训练模型)与BiGRU-Attention-CRF(双向门控循环单元-注意力机制-条件随机场)的模型进行事件元识别实验,并且与其他识别模型进行结果对比,该模型的精确率达到83.39%,高于其他事件元识别模型。实验结果表明,论文实践的方法能够比较有效地完成事件类型识别、触发词获取以及事件元识别。为民事判决书的事件抽取研究提供了一种思路,可以为后续案件审阅,智能法律机器人等方面的应用提供帮助。
其他文献
随着计算机技术和互联网技术的发展,多媒体信息的网络传输成为信息交换的主流方式,图像信息安全的关注度已经超越文本信息安全,成为信息安全领域研究的热点课题。文本信息安全已经形成了标准的密码算法,如国标SM4和美标AES等。但是,与文本信息相比,一幅图像往往具有巨大的数据量和极高的冗余度,这使得标准的文本加密算法不能直接应用于加密数字图像。近年来,由于混沌理论和DNA计算的发展,图像加密技术的研究取得了
学位
红外与可见光图像融合是将由不同传感器获得的来自同一场景的两张图像结合起来,生成一张包含两张源图像互补信息的图像。可见光传感器通过捕获反射光获得包含丰富背景信息的可见光图像,但是却很容易受到环境因素的影响。红外传感器能够克服这些因素的影响,它通过捕获来自目标的热辐射获得具有清晰轮廓但背景模糊的红外图像。因此,将红外图像中的热辐射目标信息与可见光图像的背景信息融合到一张图像,不仅更利于人眼的视觉感知,
学位
近年来,虽然我国对于证券市场的监管制度愈发完善,但是上市公司的财务欺诈行为并没有随着制度的完善而消失,各种财务欺诈案层出不穷。该行为不仅会造成报表使用者的利益损失,还会冲击整个市场的资本环境。在面对财务欺诈这一棘手的问题时,如何构建出准确高效的财务欺诈识别模型,成为了财务报表使用者以及市场监管者最关心的问题之一。现有研究表明,基于财务指标和财务文本能有效地识别出存在财务欺诈行为的样本。本文以上市公
学位
单一的传感器只能获得单模态的场景信息,存在一定的局限性,而随着技术的不断发展,传感器的种类越来越多,人们可以获得同一场景多个传感器拍摄的图像。图像融合技术对多传感器拍摄的同一场景图像进行多方位、多角度融合,以减少冗余信息并获得良好的视觉效果和丰富的细节。可见光图像包含了场景的背景信息以及纹理信息,但在某些特定情况下,如在弱光、雾等环境条件下,目标很难在可见光图像中观测到。红外图像则反映了目标与背景
学位
科技飞速发展的今天,计算机技术以迅猛的速度进入各行各业,物联网技术飞速发展,摄像机等监控设备的联网被广泛应用,但仅靠设备捕捉到的画面难以满足日益复杂的需求。当前,仍有许多城市出现雾霾的天气状况,此时摄像头拍摄到的画面总是朦胧不清,这给后续的许多任务,例如车牌识别、行人面部识别、自动驾驶路况判断等带来了不小的挑战。在这种情况下就需要使用图像处理技术对画面进行处理,去除图像上的雾层,挖掘出被雾霾掩藏的
学位
软件测试是软件开发中非常重要的一项任务,能帮助开发者全面、快速地找到软件漏洞,从而有效提升软件质量和用户体验。设计和选择合理的测试用例,可提升软件的测试效率,减少开发人员的工作量。随着软件功能的不断完善,其规模和复杂度不断增加,传统用例生成方法效率较低,很难满足目前软件测试的需求,故而,如何提高测试用例生成效率仍需进一步研究。基于此,本文针对路径覆盖测试用例自动生成效率问题展开探讨。针对回归测试中
学位
随着传感器技术的飞速发展,人们获得信息的通道越来越多。不同的传感器能够反映场景中不同方面的信息,可以帮助人们更加全面地了解物体的本质。虽然不同传感器图像之间存在着互补信息,但图像和图像之间不可避免的存在冗余信息。红外传感器捕捉场景中的热辐射信息,因此红外图像具有较高的对比度,且能够将显著目标与背景分离。可见光传感器捕捉场景中的光反射信息,因此可见光图像具有较丰富的纹理信息。红外和可见光图像融合旨在
学位
新媒体时代下,社交媒体的高度活跃,吸引了大批有着共同兴趣爱好的网民,“同好者”通过社交网络齐聚一堂,彼此联系,实现信息的交流与互动,这令每个人都不可避免地成为信息的传播者和接收者,且随时随地都能参与到媒介内容的生产过程中去。如此一来,网络中的信息量呈指数型不断增长,但在这急剧增长的信息中却夹杂着大量包含色情、暴力乃至反动等内容的敏感信息。人们的身心健康和财产安全极易遭受这些信息的威胁,不仅如此,带
学位
当今世界,国外在核心技术上对中国进行各种封锁,中国需要凭借自己的能力冲破阻碍,“十四五”规划中也提到科技创新的重要性。创新促进科技的进步,而学科竞赛是培养学生创新能力的重要途径,参加学科竞赛有利于激发学生的创新活力,优化学校的创新生态。现如今,人们的生产生活方式由线下逐步转为线上,人们逐渐习惯了在线上就能完成所要做的工作。因此,本文从学科竞赛中的组队入手,旨在打造一个帮助学生参与竞赛,帮助学校管理
学位
可搜索加密是一种支持用户在密文上进行关键字查找的密码学原语,它能够有效解决无法直接在基于传统加密方案加密的数据中进行查询的问题。在云端的密文数据集中,当用户由于自身缘故导致输入查询关键字有偏差时,仅支持精确查询的可搜索加密会导致搜索结果和用户预期相差较远,甚至没有搜索结果。而支持模糊关键字查询后,云服务器将根据查询关键字搜索与其尽可能相似的文件,从而有效避免上述问题。搜索精度和搜索效率是衡量可搜索
学位