论文部分内容阅读
为了应对警力少、经费投入少,而打击犯罪、维护社会治安的任务重等问题,公安机关开始按照情报主导警务的理念推动警务的改革。在情报主导警务中,案件的分析研判是一个核心环节,案件的分析研判可以为警务活动的安排提供决策依据,提高警务效能。在这些研判工作中有一项很重要的工作叫做串并案分析。串并案分析的结果可以为并案侦查提供依据,加快办案速度,提高警务活动的效率。目前在公安现有的系统平台中还比较缺少智能化的串并案工具,这也导致了公安串并案分析工作耗时大,效率不高。因此,公安机关需要一个串案比较准确并且自动化程度高的串并案工具。而智能化串并案工具的核心就是基于公安领域知识与案件数据(特别是系列案件的数据)的串并案模型算法研究。 本文围绕“两抢”案件串并案中的若干关键问题展开研究,在对研究问题的现实背景和理论背景进行分析的基础上,针对“两抢”案件串并案中的主要难点:案件信息不完整、结构化案件属性较少,提出两个研究问题:基于结构化属性的串并案、与案件文本结构化特征提取。为了使用有监督式的方法框架,这两个问题分别被描述为:“案件对”的分类问题(Case Pair Classification),与单/多标记文本分类问题(Single or Multi-lable Text Classification)。第一问题按照处理的流程又可以分为三个子问题:如何产生串并案依据,即如何计算各属性的相似度;如何选择串并案依据,即用什么样的度量方式筛选有效的属性;如何综合串并案依据,即使用何种模型对串并案指标进行综合集成得到串并案结果。 本文对两抢案件串并建模进行了系统的探讨和分析,针对如何产生串并案依据、如何选择串并案依据、如何综合串并案依据和如何提取结构化属性这几个关键问题进行了深入研究。提出了一套基于结构化属性的案件对关联方法框架,使用该方法框架可以实现从相似度计算、特征选择、到串并案结果输出的完整串并案过程;构建了基于卷积神经网络(CNN)的文本语义特征提取方法框架,适用于提取案件文本中的作案方式属性特征。具体来说,本文主要的贡献与创新点包括以下4个方面: (1)在属性相似度的度量上,本文根据特征发散性、特征取值与样本类别的关联性等原则设计了三种类型属性的相似度算法,特别是本文提出的加权层级性相似度算法,无论是在算法时间复杂度上还是在解决串并案问题的效果上都不劣于传统的相似度算法,如Taxonomic相似度与Jaccard相似度。 (2)在特征属性(相似度)的评价与选择上,本文提出了基于可分性指标的特征选择方法。研究了数据属性与数据集可分性程度的度量方式,设计了基于数据集可分性指标的特征选择算法;使用实例数据集验证了该算法特征选择的效果较好,并且相较于使用分类结果作为特征子集评价指标的算法运行时间降低。 (3)在串并案综合模型与参数学习方法上,本文针对传统模型不能一次性优化相似度计算过程中的参数与相似度权重参数等问题,设计了以相似度为中间层节点的神经网络模型,使得两阶段的参数可以在一个模型中优化;并且设计了预剪枝梯度下降算法,基于标注数据集(已破系列案件)学习模型参数;实例结果表明本文模型串并效果优于专家赋权模型与逻辑回归模型和支持向量机(SVM)模型,并且预剪枝的策略还降低了模型的复杂程度。 (4)在案件文本结构化特征提取上,设计了基于卷积神经网络的文本语义特征提取方法。针对现有的基于监督学习的特征提取方法中未考虑词序信息和词语语义相关性等问题,提出了适用于单标记属性特征提取的卷积神经网络分类方法,提出了使用于多标记属性特征提取的基于CNN的多标记分类方法;改进了CNN中的损失函数,使其更加适用于不均衡数据集的分类。通过实例验证本文的特征提取方法效果较好,准确率优于传统的逻辑回归、SVM等模型效果;针对不均衡数据集,改进CNN的损失函数之后,在分类结果宏平均准确性不降低的情况下,显著提升了宏平均F1值。