法律文本相似性问题的研究

来源 :东南大学 | 被引量 : 5次 | 上传用户:wxy199
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,最高法和各级法院陆续发布了大量已生效的裁判文书。对于广大法律研究者而言,裁判文书是宝贵的研究素材,具有很高的综合使用价值。由于裁判文书属于无结构的文本,如何对裁判文书进行结构化处理从中提取出需要重点关注的案件信息,并从历史案例库中查询到在案件要素、事件过程、争议焦点等语意层面相似的案例以辅助决策,是一个非常有价值和亟待解决的问题,该问题从技术层次上看属于面向法律领域的文本相似度计算问题。鉴于裁判文书案由众多而且相互具有很大的差异性,不同的案由通常涉及到不同的领域知识,建立一个能够适用各种案由或建立一个做到领域无关的通用模型都是不现实的,将无法准确地反映裁判文书的相似性。为此,根据实际需求和现有数据情况,本文专注于医患纠纷类裁判文书的相似性的研究,结合医患领域知识,建立医患纠纷类裁判文书的文本相似度模型和算法,并据此设计医患纠纷类裁判文书推荐系统,用以辅助司法工作者决策。在医患纠纷领域进行裁判文书相似性的研究,面临诸多问题。首先,领域知识在文本相似度计算中具有重要作用,如何把医疗领域的专业知识融入相似度计算的过程中,提高计算的精准度,是一个亟待解决的问题;其次,在从成千上万个文本中找出与指定文本相似的文本时,先判断文本的所属类别进行初步筛选,再在同类文本中寻找相似文本进行更精细的匹配是个目前广为应用的策略。为了保证文本分类的准确率,通常使用监督学习的方法。然而,在医患纠纷领域,既没有一个公开的标注数据集,医学专家手工标注的代价又很大,因此需要设计一个行之有效的分类标注策略。最后,医患纠纷裁判文书属于长文本,其中,原告诉称、被告辩称、审理查明、本院认为等段落在内容上存在大量冗余,使得文本的特征不突出,导致分类效果不佳,传统的基于文本整体构建向量空间模型和主题模型的相似度计算误差较大。因此,结合医患纠纷文本的特点,选择合适的文本表示方法,以除去冗余信息的影响,是一个需要深入研究的问题。为了解决上述问题,本文的研究从以下几个方面着手。首先,本文对大量的医患纠纷案例进行分析,并结合司法工作者的建议和意见,建立了一个实用的医患纠纷多维度分类标签体系。其次,本文沿用先分类,再在同类文本中计算相似度的方法。在案例分类时,考虑到医患纠纷领域没有公开的标注数据集,而人工标注案例的代价又很大,因此将主动学习运用在标注案例集的构造中,提出基于主动学习的医患纠纷案例的标签生成方法,以实现小样本条件下获取较高的标注准确率,减少对训练集大小的依赖。在同类案例中计算相似度时,考虑到医患纠纷案例的冗余性和特征不突出的特点,本文提出基于事件的医患纠纷案例相似度计算方法。该方法运用监督学习技术从医患纠纷案例中抽取出医患纠纷的起因、医疗过程以及造成的医疗损害后果等关键要素,组成医疗事件,通过计算医疗事件的相似度得到案例的相似度,从而有效地避免了冗余信息的影响,提高了相似度计算结果的准确性。最后,本文以案例分析的方法,分别使用基于事件的相似度算法、基于向量空间模型的相似度算法和基于主题模型的相似度算法进行案例相似度的计算和类案推荐。实验表明,基于事件的相似度算法的类案推荐结果具有最好的准确性,由此实现的类案推荐系统可以满足实际应用的需求。
其他文献
化工行业是我国的支柱产业之一,对我国社会经济的发展有着重要的推动作用。然而由于化工行业具有较高的危险系数,因此其安全管理工作受到了广泛的关注。为此,本文将结合笔者
凸轮机构作为一种重要的驱动和控制机构,在机械补偿法变焦镜头中应用广泛。依据连续变倍传动机构的工作原理及变倍精度和速度的要求,应用Excel软件计算出凸轮曲线上各个点的
确保国家粮食安全始终是经济发展、社会稳定和国家自立的基础,是直接关系国计民生的大事。四川是我国重要的水稻生产省份之一,常年种植水稻3000万亩(1亩=1/15公顷,下同)左右,总产150
名贵春兰是指叶、花的形状、大小、颜色、香味等与一般春兰不同的栽培或自然变异品种。比如,依花型不同有梅瓣、荷瓣、水仙瓣、奇瓣等;依花色不同则有红色、黄绿、紫色、金黄、
9月29日,汝州市政府组织地矿、安监、矿产资源警察大队和大峪镇政府开展集中整治行动,对该市大峪镇大峪村台院组一处非法采矿点进行查处,垒砌围墙封堵通往非法开采点的通道,并在
针对嵌入式系统的键盘驱动特点,以Linux2.6.21内核为例,提出了一种基于嵌入式Linux的矩阵键盘的实现方案。介绍了矩阵键盘的结构及原理,设计了基于Platform机制的矩阵键盘驱动程序
考虑了具有耗散项的非线性Schroedinger方程iaε/at+a^2ε/ax^2+g(|ε|^2)ε+iaε+h=0,构建了它的两个非线性近似惯性流形,进一步得到了这两个近似惯性流形逼近方程全局吸引子
元征X-431 PADⅢ是一款具有"智能诊断"、"在线编程"功能的高端汽车诊断工具,具有特殊功能多、车型覆盖广、测试数据准、诊断功能强的特点。在线编程无需原厂账号,不产生费用,
目的:观察舒血宁注射液对老年哮喘的临床疗效,并探讨其机制。方法:66例老年哮喘患者随机分为对照组(34例)和治疗组(32例)。对照组给予抗感染、解痉、平喘、补液等常规治疗;治疗组在常
目的:探究甲状腺冰冻切片与石蜡切片病理检查在甲状腺疾病中的诊断价值。方法:将 92 例甲状腺疾病患者随机均分为 两组。观察组予以甲状腺冰冻切片,对照组予以石蜡切片,对比