互联网环境下的涉烟情报辅助研判系统设计与实现

来源 :西北大学 | 被引量 : 0次 | 上传用户:donny_zhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的广泛发展,地下制售假烟团伙在网络中发布大量非法从事烟草经营、走私的信息,我们将这些信息称之为涉烟情报。互联网涉烟情报的收集、甄别和研判是烟草专卖执法人员在打击互联网涉烟违法活动中赖以决策的基础。面对网络涉烟违法活动现状,本文提出了互联网环境下的涉烟情报辅助研判系统方案。整个方案通过如下步骤完成:(1)结合现有数据爬取工具以及本文设计的python爬虫工具对出现涉烟情报的网站、论坛、贴吧等抓取所需文本及图像数据。数据清洗后进行分词、词性标注、命名实体识别、依存句法分析等自然语言底层处理,并对数据进行人工标注,构建涉烟数据集。(2)将文本和图像一起作为涉烟数据筛查模型的输入,模型的输出是与烟草相关的文本及图像。使用基于词频-逆向文件频率方法(Term frequency-inverse document frequency,Tf-idf)将文本语义特征向量化,另外构建了一种简化的卷积神经网络模型,用分类概率值表征配图语义特征,将文本及图像特征融合后进行分类。实验表明,对于涉烟数据筛查,本文提出的基于融合特征的分类准确率较基于单一文本特征的分类准确率提高了2.65%。进一步证明了文本及配图的融合特征对比单一的文本特征,融合了更多的语义信息,填补了文本特征信息的不完整性。(3)将涉烟文本作为涉烟情报事件抽取模型的输入,把涉烟情报抽取任务转化为涉烟事件抽取任务,模型的输出是从事烟草经营、走私的涉烟情报信息。提出了一种改进的基于Word2vec句子语义相似度计算的事件种子聚类算法,事件抽取模式经过泛化和过滤后,在ACE语料和本文的涉烟数据集上事件抽取F值分别提高了0.9%、3.7%。实验表明,本文提出的方法能够完成涉烟情报的抽取任务。(4)设计并实现了互联网环境下的涉烟情报辅助研判系统。主要功能模块包括:数据收集模块、数据预处理模块、涉烟数据筛查模块及涉烟情报抽取模块。经过烟草部门试用,证明本文提出的互联网环境下的涉烟情报辅助研判系统方案的可行性和有效性。
其他文献
<正>描写是写作的基本功之一,也是初中作文训练和作文评价的重点内容。一篇记叙文,如果没有足够的描写,或不会描写,文章就缺少足够的表现力,考试的时候,会被扣去很多分,因此,
润滑油在企业巨大的维护保养成本中所占的费用很少,但其作用是极为重要的。良好的润滑就需要合理使用润滑油,随时监测润滑油的使用状况,保证合理的换油时机,确保设备运行的安
利用地震学方法估算爆破当量,一直以来都是地震学研究的难点之一。影响当量估算的因素很多,如震源特征、事件埋深、传播路径、能量衰减、地壳结构的不均匀性,等等。想要精确
厘清职业发展与就业指导课程的基础性德育课程定位和社会本位课程开发理念,有助于解决当前高等职业院校学生职业发展与就业指导课程偏离学生需求、课程吸引力不强的“鸡肋”
目的在人际交往的过程中,心理理论起着重要的作用,心理理论被认为是社会功能的重要中介因素。认知神经科学将心理理论再分为心理理论社会知觉成分和心理理论社会认知成分。现
最近有建议将血管舒缩性鼻炎改为特发性鼻炎(idiopaticrhintis,IR),主要是因为前者名称的使用不一致,缺少血管舒缩的证据。特发性鼻炎是一个不令人满意的名称,因其是一个排除性的诊断。过敏性和非过敏
依据自组织及耗散结构理论,采用结构熵方法分析判断关联产业间技术溢出的复杂性.利用LISREL软件,对关联产业间技术溢出效应影响因素的结构方程模型进行估计分析.依托长三角地
当今社会经济高速发展、信息技术日新月异,各行各业都面临机遇和挑战,一个信息的获取或丢失,轻的可能导致工作效率低下,重的也许导致动辄上千万的经济损失,因而信息的顺畅沟
辩证逻辑是唯物辩证法在思维领域中的具体运用,它通过自身的范畴表现唯物辩证法的基本规律,对各门科学具有普遍的指导意义。档案文献编纂学是研究档案文献编纂的原理与方法的
移动学习资源内容的选择和设计是移动学习资源建设中非常重要的环节,将移动学习本身、移动学习使用对象、移动设备等特点相结合,以建构主义思想为指导,寻找切入点。除借鉴微