网络警情的信息提取与分析的关键技术研究与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:suixin1102
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着时代发展,互联网逐渐变成了个人与官方发布和分享消息的主要途径,网络上的信息也急剧增多。在这海量数据中,存在大量有价值的警情相关信息,对于相关部门而言,获取及分析该部分信息至关重要。通过网络警情信息,相关部门可以及时处理各类危害社会安全与稳定的突发事件,了解某地区某段时间的治安情况。而互联网信息数据量大,更新时速快,数据不规范,故需要寻求高效自动的方法进行自动化分析与处理。基于以上背景,本文对网络警情信息的提取与分析的关键问题进行深入研究,结合自然语言处理领域技术设计并实现了网络警情信息研判分析系统,对其中关键问题进行重点研究和分析,并结合本文工作对CBOW和Skip-Gram算法进行改进。本文的主要研究内容包括:a)提出了一种基于卷积神经网络自动提取文本特征的词义消歧算法。该算法首先提取出含有多义词的子句样本集合并构建字汇表,然后根据子句样本的字符内容将其转换为数据矩阵作为6层CNN(Convolutional Neural Network,CNN)的输入,利用神经网络的自学习能力训练网络参数;随后最后基于支持向量机建立多分类器,将训练好的CNN全连接层的输出作为样本特征向量输入到多分类器中完成词义消歧。该方法在警情数据及通用词义消歧数据中准确率均超过手工设计特征的词义消歧算法且具有较高通用性。b)针对Word Embedding中对词语仅生成单一词向量从而无法准确描述多义词词义问题,对CBOW和Skip-Gram算法进行了改进。提出了结合CNN进行词义识别的Sense Embedding模型,并在此基础上继续改进,提出了结合DBSCAN聚类算法的两种无监督Sense Embedding模型以及基于One-pass算法的融合型Sense Embedding模型,从多种应用场景生成了表征能力更强的词向量。c)结合网络警情的事件特点,设计实现了基于事件信息的文本去重算法对网络警情数据中的重复冗余文本进行识别。首先采用条件随机场提取文本中命名实体信息进行文本间时间,地点,人物等事件要素级别的对比,随后实现了两种VSM(Vector Space Model,VSM)类模型:词袋模型及TF-IDF模型进行文本语言级别对比。此外,针对VSM类模型比较效率问题,设计实现了基于文档指纹的去重算法进一步提高了算法效率。
其他文献
通过对河北省社会体育专业大学生进行随机抽样,完成《成就动机量表》和《学业自我效能感问卷》的测验,结合其学业成绩进行学业自我效能感、成就动机和学业成绩关系的研究。结
<正>早期肝硬化为慢性肝炎发展至一定阶段出现的一种临床常见病症,有一定可逆性,也可经过积极治疗延缓病程进展。所以早期肝硬化的治疗非常关键。我们用大黄蛰虫丸联合复方甘
目的探讨AECOPD机械通气的脱机指征。方法复习相关文献并对6例2010年12月至2012年1月入住我院呼吸科行有创机械通气并成功脱机的AECOPD患者进行回顾性分析。结果 6例AECOPD患
This article will analyze the reason for the success of the poem "O Captain! My Captain!"(O for short)from its "External Structure Integrity"、"Sound Structure
教育叙事研究是作为质的研究方法而进入教育领域并为学者所接受和认可的,厘清教育叙事研究的内涵、特点,认清教育叙事研究的局限性有利于我们在研究中根据研究的目的和需要合
<正>“意境”,是我国传统美学的一个重要范畴,也有人称它是山水画的灵魂。它是构成艺术美的不可缺少的因素。然而讲究意境的美感,富于诗意则是中国山水画的一大艺术特征。好
<正>干法复合是在薄膜上涂布一层胶粘剂,经过烘干箱干燥,在热压状态下与其它的复合基材(塑料薄膜或铝箔)粘合成复合膜。随着国内经济的持续发展,复合软包装产品得到越来越广
目的探讨冠心病患者颈动脉内中膜厚度与血浆同型半胱氨酸Hcy(homocysteine,Hcy)及ApoB/ApoA-I的相关性。方法超声检测157例冠心病患者的颈动脉内中膜厚度,同时检测患者的血脂
<正>【教学目标】知识与技能:认识音乐中的七个音符,并且能够准确演唱歌曲。过程与方法:在体验探究合作,对比聆听中演唱歌曲。情感、态度、价值观:通过学习歌曲Do Re Mi,让学