基于向量空间的案件分析

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:zhuchunjiangqq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:该文根据市公安局的需求建立PGIS综合查询系统,介绍了PGIS综合查询系统的设计。着重介绍了基于向量空间的方法对海量数据库的分析研究,对往常案件进行分析,找出与当前案件相类似的案件,使警方对案件做出正确的判断,让公安机关第一时间有效地预防和打击罪犯,从而快速破案。
  关键词:PGIS;相似度;案件
  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)04-0063-03
  Abstract: According to the demand of the city public security bureau to build PGIS comprehensive query system, this paper introduces the design of PGIS integrated query system. Introducing the vector space method to analysis and study of massive databases,analyzing the usual case, finding out similar case to the current case .It can help the police to judge the case, make the public security organ effectively preventing and cracking down on criminals, make the police to solve problems at the first time.
  Key words: PGIS; Similarity; Case
  随着电子信息的快速发展,计算机办公占据了公安机关主要的办公方法,随着案件的增加,数据库中的数据量也越来越大,面对大量的数据库,警务人员无从下手,可是这大量的数据库中包含了很多重要的信息,若人为的从中找出有用信息来帮助破案,等同于大海捞针。数据挖掘技术可以很好的解决这个问题,它可以很快很准确的在海量的数据库中发现我们想要寻找的东西,挖掘出一些潜在的信息,通过这些信息可以帮助警务人员破案。根据案件的实际情况,警用会对周边进行盘查,人为的盘查可能会出现漏查、重查的现象,在PGIS中可以很好案件周边情况有很好的掌握,所以PGIS查询系统的建设迫在眉睫。
  1 PGIS综合查询系统设计
  1.1 案件查询
  结合关系数据库和图层文件实现通过案件相关属性对案件进行空间定位和基本信息展示,并可对案件进行周边查询(可自定义查询范围0-2000米),包括网吧、旅馆、盘查查询、视频查询、重点人员查询等。网吧查询不仅可以查询出周边网吧的信息,同时也支持查询上网记录,旅馆周边查询具有同样的功能。盘查查询可以查询出周边出现过得可疑人员,帮助警方快速锁定人员。重点人员可以根据时间段查询出在案件周边一定范围内出现过得重点人员,并能展示它们的前科信息。
  1.2 盘查查询
  支持属性查询和空间查询相结合的查询方法。可以了解到某一地区盘查情况。同时支持查询某警员的在某时间段内盘查采集的情况,是公安机关考察业绩的重要指标之一。
  1.3 网吧查询
  同样支持属性查询和空间查询相结合的查询方法,对某一地区的网吧分布情况进行了解。可查询出某时间段内上网人员信息。可根据相关属性进行上网人员轨迹查询,在PGIS中展示出上网人员的一个详细的轨迹图。帮助警务人员掌握人员的活动轨迹。
  1.4 旅馆查询
  拥有与网吧相同的功能。
  1.5 案件相似度查询
  PGIS综合查询系统旨在结合属性查询和空间查询在PGIS中查询出案件、网吧、旅馆、视频等信息,并在PGIS中展现且定位其位置。网吧查询中上网记录查询可以查询出上网人员上网记录,并可在PGIS中展现其上网轨迹,帮助警务人员对人员进行分析。旅馆查询中的住宿记录查询具有同样的功能。利用周边查询系统可对案件周边进行相关性的查询,包括网吧、旅馆、公安视频、盘查查询以及重点人员查询。通过网吧查询和旅馆查询可以查询出上网人员信息和住宿人员信息。通过重点人员查询可以快速查找出曾在那件周边出现过得重点人员,并可查询重点人员的犯罪前科。通过这一系列的设计,警务人员可以快速的对案件有个大概的掌控,对其周边情况有所了解,可以针对查询结果进行排查,达到不错不漏不重的效果。
  2 案件相似度设计
  2.1 文本分词
  由于市公安局的犯罪数据库中简要案情中包含了简要的案件描述,所以案件的大部分信息都是以文本的形式存放在数据库中,所以需要对这个字段进行文本相似度分析,确定相似程度。
  首先需要将简要案情进行分词,将其转换成一个个词条。当前中文分词算法主要可以分为三大类:基于词典的方法、基于统计的方法、基于规则的方法[3]。该文中对简要案情的分词采用中国科学院计算技术研究所研发的NLPIR(原ICTCLAS)系统,该系统主要包括中文分词、词性标注、新词识别、同时支持用户词典等功能。分词速度为500kb/s,分词精度超过大部分中文分词,可以达到98.45%,是世界上最好用的汉语词法分析器[6]。
  分词后有很多与案件无关的词语(如连词,副词,标点符号等)对案件分析的影响非常大,而且在大部分文本中都会出现,这时我们应该在分词后对这些词句进行过滤,将文本中出现的连词、副词等一些与案件无关的词删除,这样可以提高判断的准确性。
  2.2 建模
  要进行挖掘必须将文本词汇转换成计算机能够识别的语言,必须对文本词汇进行建模,常用的方法有向量空间模型、概率模型、语言模型[7]。
  向量空间模型很好的将自然语言转换成数学模型,将自然语言转换成一个个词条对应于多维空间中的点,从而转换成多维空间中两个向量之间的比较。当然向量空间也存在他的局限性,它没有考虑到文本的语义顺序,在长篇的文章之中,语义顺序很重要,两句话词一样顺序不一样意思也就不一样了。公安机关的简要案情为对案件经过的大致描述,一般为一两句话,使用向量空间模型是最好的选择。
  通过大量的试验测试结果可知该应用程序的相似度计算比较接近人工判断的结果,符合公安机关的要求。
  4 结束语
  本系统能很准确的将案件定位到地图中,并展示案件的信息,对轨迹的展现非常清晰明了,可以很好的帮助警务人员掌握案件信息,以及案件周边的环境,人员的活动路径,对后期的排查、询问有很大的帮助。在周边查询中可以显示案件周边重点人员信息,分析出案件的相似案件,可以加速破案效率。通过公安机关一段时间的运行,证明该系统是完全可行的。
  参考文献:
  [1] PGIS平台服务二次开发手册[Z].公安部信息中心.2011
  [2] Piatetsky-Shapiro,Frawley,Knowledge Discovery in Database[M] .MIT Press.
  [3] 科显毅,朱倩.文本挖掘[M].北京:科学出版社,2010.
  [4] 邵峰晶,丁忠清,王金龙,等.数据挖掘原理与算法[M]. 2版. 北京:科学出版社,2009.
  [5] 徐洪波,程学旗,王斌,等.文本挖掘与机器学习[J].信息技术快报,2005,3(2):1-3
  [6] 中科院.自然语言处理与信息检索共享平台[EB/OL].http://ictclas.nlpir.org/docs.
  [7] 许洪波,程学旗,王斌,等.文本挖掘与机器学习[J].信息技术快报,2005,3(2):1-3.
  [8] 杨振瑜,王效岳,白如江. 国外主要可视化数据挖掘开源软件的比较分析研究 [J].图书馆理论与实践,2013(5).
其他文献
吲哚美辛(Indomethacine,IMC)为非甾体消炎镇痛药,由于该药对胃肠道刺激和中枢神经系统的不良反应发生率高达30%~50%,而使10%~20%的患者不能耐受[1]。Alan等认为其不良反应是由于血药浓度超过6μg/ml所致。国内外通过改变...
通过对电器接线端子的结构进行分析,研究了该零件的冲压工艺方案,并介绍了接线端子零件多工位级进模的排样设计、工序设计、模具结构和动作过程,指出了模具主要工作部分零件
目的:研究治疗上肢痉挛性脑瘫新的手术方法。方法:利用臂丛神经根相互代偿的原理设计了选择性壁丛神经根切断术治疗上肢痉挛性脑瘫的方法,并选择2例病例进行治疗。结果:术后2例2手部
采用刚粘塑性有限元法对万向节叉热挤压成形过程进行数值模拟分析,综合考虑了变形、热传导、变形生热、摩擦生热等多个因素,得出了成形过程中金属流动变化的3个阶段。研究了
目的:探讨两性霉素B(AMB)脂南体治疗隐球菌性脑膜炎的疗效与安全性。方法:对4例隐球菌性脑膜炎患者早期采用AMB脂质体静脉滴注,同时间断鞘内注射治疗,后期采用氟康唑口服维持。结果:4例患者均
通过血脂,血浆血栓素,6-酮、-前列腺素F1α(6-keto-PFG1α),内皮素,TXB2/6keto-PGF1α比值及扫描电下的主动脉内皮细胞结构变化等几个方面探讨镁预防动脉粥样硬化形成的可能作用。方法:雄性Wistar大鼠随机分为正常对照组,高
在第六届国际表面活性剂和洗涤剂会议上,针对目前人们一直认为水质的富营养化是由磷引起的、要求改善洗涤剂配方、限制生产含磷洗衣粉的呼声很高的问题,英国利物浦大学Brian Mo
目的:研究高颅压下鞘内注射两性霉素B(AMB)治疗隐球菌性脑膜炎的疗效与安全性。方法:23例隐球菌性脑膜炎患者,鞘内注射组11例,采用鞘内注射和同时静脉滴注AMB,合用氟康唑或氟胞嘧啶,非鞘内注射组
目的:观察乙型肝炎病毒(HBV)ayw亚型全基因组转基因小鼠的肝、肾等组织的病理改变。方法:选取24只13 ̄25周龄的清洁级ICR品系HBV转基因小鼠及15只正常ICR小鼠为对照进行病理大体观察,并重点取肝、肾、脾、肺
基于博士生生源质量对研究型大学培养国家高层次创新人才的重要性分析,尝试探究研究生培养全过程的源头——生源质量保障这一主题。以浙江大学博士生招生实践为例,从博士生生