基于融合学习模型的文本描述刑事犯罪行为自动分类的研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:czh126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,国家多次进行普法行动意图让全国人民知法懂法,以此来降低犯罪率。全靠人力来普法将是一个漫长而艰难的过程,目前很多涉案人员了解案情都是要通过求助专业法律人员,这些普法的过程对于专业人员来说是一个简单重复性的工作,因此引入人工智能辅助成为大势所趋。由于技术和设备的限制,人工智能还不能完全代替律师和法官,大多在法律领域的人工智能系统都是辅助性的。本文研究一个刑事犯罪行为分类系统,针对中文刑事犯罪行为文本做多种预处理,通过多种学习模型来预测罪名,融入关键词区分易混淆罪名,继而综合多个模型调整权重得到最终的预测结果,从而达到普法、减少专业法律人工作量和辅助办案的目的。本文的主要贡献如下:1.在传统文本特征值选择过程中提出基于词嵌入的特征筛选方法,解决词向量维度大、向量矩阵稀疏的问题。传统做法是使用训练集的全词语作为特征来构建词向量空间,测试时用训练集产生的词向量空间来把文字信息转化为数字向量。本文在使用训练集构建词向量空间之前,采用词嵌入的方法获得筛选过后的词表,利用新的词表构建词向量空间。在训练和测试时,利用词向量空间把原文数据转化为数字向量,利用TF-IDF获得权重矩阵参与分类模型的计算。处理之后的权重矩阵维度降低到原来的四分之一,向量稀疏问题有所缓和。2.融合多个分类模型,提高模型的分类效果。为每个模型分配权重,融合获得最终结果。不同的模型因为算法和计算方法上的不同导致有不同的结果;不同模型的侧重不一样,给模型分配权重,调整单个模型结果在整体结果中的比重,实验获得最优解的权重分配。融合后的模型比任何一个单个模型的效果要好,取得了更好的效果。3.使用Text Rank获得罪名的关键词以区分易混淆罪名。单纯使用分类模型对犯罪行为分类不容易区分一些易混淆的罪名,加入罪名关键词加以区分和校验,在易混淆罪名中取得了不错的效果。使用Text Rank获得每个罪名的关键词表,对比易混淆罪名队的关键词表,使用二者不共有的词语作为区分易混淆罪名的关键词表。并研究刑法对于易混淆罪名的定性的词语,对获得的关键词表进行验证和修改。融入关键词和规则能有效地区分易混淆罪名。综上所述,经过数据的预处理和后处理能够提高犯罪行为分类的准确率。这些处理也可以应用到中文文本分类在其他领域的使用,为提高犯罪行为分类的水平和预测效果提供了有效的方法。
其他文献
随着数据以指数级速度不断增长,越来越多的以数据驱动为计算模式的人工智能模型被应用到了各行各业(例如医疗、法律等领域),不断从大数据中发现知识、规律和模式,辅助行业用户,发挥出了巨大作用。在法庭审理过程中,原告和被告在进行诉称和辩称后,法官会根据原告和被告之间形成的论辩焦点提出质询性问题,甄别争论焦点,厘清案由,以形成判案依据,最终给出判案结果。本文以民间借贷这一类别案由为研究对象,研究将人工智能算
随着社会现代化进程的加快,人类有80%以上的时间都在室内环境中活动,对于基于位置的服务(Location Based Services,LBS)的需求日益提高,致使室内定位市场蓬勃发展。近二十年来,各种各样的室内定位技术层出不穷。随着无线网络的大范围覆盖以及智能终端的快速发展,基于Wi-Fi位置指纹的定位方法成为了当前室内定位服务的首选。在位置指纹定位方法中,指纹地图的“保真度”与定位精度紧密相关
近年来,移动智能终端在处理器、嵌入式传感器和网络传输速率方面有所发展。人们把数据众包的思想与移动智能终端的感知能力相结合,提出一种快速、简便和低成本的新的数据收集范式,即“移动群体感知”。移动群体感知平台通过招募大量的移动用户收集数据,为各类城市监控应用提供数据支持,被广泛的应用于环境监控、交通监控和医疗健康监控等场景。由于云平台是不可信的,在数据聚合过程中云平台存在泄漏移动用户隐私的风险。此外,
在无线传感器网络的研究中,分簇路由协议是其中的重要分支,2000年提出的LEACH协议成为了众多研究的基础。其中非均匀分簇路由协议作为解决能量空洞问题的重要手段,能够极大的延长网络的生命周期,有着广阔的应用前景。本文基于传统非均匀分簇EEUC协议,在簇头选举,数据融合,路由传输三个阶段分别提出相应的优化方法,用来降低网络能耗延长网络生命周期以及提高传输数据的精度,论文主要工作如下:(1)在簇头选举
随着光学技术及产品的开发和应用,金属镜作为其中重要的光学元件之一,对金属镜实现高效、高精、低表面损伤加工的需求越来越多,对加工技术的要求越来越高。本文针对固结磨料磨具研磨金属镜加工技术进行了深入的研究。本文对固结磨料磨具研磨的加工机理进行分析,从磨粒角度入手,分析了单颗磨粒的受力和磨粒整体分布情况;对不定偏心研磨下,固结磨料磨具与工件间的相对运动轨迹进行探索,推导出了磨具上一点相对于工件的轨迹方程
网络考试系统是高校考试方式的发展趋势,尤其今年疫情带来的影响,更加迫切的需要考试的网络化。本论文探索实现的是支持大规模考生参加的局域网网络考试系统。本论文主要通过对现有考试方式的分析,确立了系统开发的可行性、必要性,完成了系统的功能性需求、非功能性需求。之后对网络考试系统进行了概要设计,介绍了微服务架构与单体应用架构之间的对比,阐释了本文采用微服务架构的优点,设计了考务管理前端、考试终端,进行了微
国际能源危机的来临、国家政策的导向促使节能问题成为制造业关注的重点问题。随着智能工厂的发展,机器人柔性生产线将会在未来逐渐成为制造工厂中的生产主力军,同时也是制造工厂的主要能耗者。可以预见,机器人柔性生产线节能技术具有重要的研究意义。本文基于工业机器人轨迹规划和柔性生产线调度,开展机器人柔性生产线节能技术研究。所提出的节能技术均在真实工业机器人与柔性生产线进行了应用实验,具有一定的应用价值。主要研
随着互联网技术的快速发展,安全技术与云计算逐渐交织形成一种新的安全防御途径——安全共享资源池。“安全即服务”作为一种新的服务受到学术界和产业界极大的关注,用户只需租用安全资源,即可在不消耗本地计算资源的情况下享受到安全服务。但是随着安全共享资源池的扩展,数据中心管理成本不断增加,安全资源池如何在确保安全性的同时降低成本成为人们关注的问题。研究根据节点资源负载随时间的变化特点,达到安全共享资源池的资
连接查询技术往往需要很高的时间开销。随着数据量加大,连接查询会因其时间开销过大而失去实用性。现实的数据集通常是包含大量重复元组的脏数据集,会造成查询结果包含重复元
随着大数据时代的到来,互联网迎来新的发展,无论对于企业还是个人,数据信息都越来越重要,保护数据信息的安全,在发生意外的时候保证充足的容灾备份成为当下越来越重要的研究方向。由于数据量的飞速增长,需要通过迅速、高效的方法把源数据同步到备份服务器中。采用常规同步的方法在面对数据量较大的时候,有占用存储空间多,占用网络带宽高,同步效率低下等问题,所以本文从现实考虑出发,提出以数据分块算法和布隆过滤器为基础