涉恐新闻文本的事件抽取方法研究

来源 :大连外国语大学 | 被引量 : 0次 | 上传用户:onlysunnyfei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
恐怖主义已然对世界和平和发展构成严重威胁,随着互联网技术的发展,网络成为涉恐信息传播的重要途经。从隐蔽性高、交互性强、信息规模庞大、数据类型多样的网络信息中及早发现涉恐信息的难度不断增加。近些年来深度学习技术在文本挖掘中表现突出,因此利用深度学习方法开展涉恐新闻文本中的信息辩伪和抽取,从大量新闻文本中挖掘涉恐信息,可最大可能地减少情报失察,提高涉恐网络信息的分析和预警能力。本文将基于深度学习技术对涉恐新闻开展事件类型识别和论元抽取任务,主要研究内容有以下两点:1.针对文本类型识别中局部文本块特征提取不完整的问题,提出基于组合卷积神经网络的涉恐事件类型识别模型。构建新闻数据集专有的分类词汇表,结合Word2vec预训练词向量进行文本特征构建,对经典卷积神经网络中的卷积层和池化层进行改进,通过组合卷积层提取更加真实完善的局部文本特征。在全球恐怖主义数据库中的对照实验结果表明,Word2vec+组合CNN模型在事件类型识别任务中效果更优,相比于传统的机器学习方法和经典卷积神经网络方法有更高的准确率和召回率。2.针对涉恐网络信息语义较为复杂、论元识别难度大以及传统机器学习算法对涉恐新闻事件论元抽取准确率低的问题,提出基于BERT+Bi LSTM+CRF的涉恐事件论元抽取模型。其中BERT预训练模型的架构是带有多层注意力机制的编码结构,主要任务是生成文本对应的上下文语义表示。双向长短时记忆网络(Bi LSTM)实现对句子级特征的抽取,同时利用条件随机场(CRF)对输出标记进行相应约束从而获取标记最高的标注方案。本研究利用BIO标注方案对输入文本进行标注,通过在全球恐怖主义数据库中的对照实验结果表明,该模型的召回率高达90%以上,能够实现涉恐新闻事件论元抽取。
其他文献
本报告基于哲学类文本《当代马克思主义批判指南》的第四章“盎格鲁-撒克逊马克思主义何去何从?”的翻译实践。作为哲学类文本,源文本在词汇层面,使用了许多专业术语并有一词多义现象;在句法层面使用了很多复合句和长难句;语篇层面具有逻辑性和思辨性特点。报告从格特的关联翻译理论视角出发,探究了译者在英译汉过程中如何最大程度地再现源文本信息。本报告共分四章。第一章介绍了翻译任务,包括源文本及其作者信息。第二部分
学位
近年来,随着网络科技发展的日新月异,传统犯罪呈现出网络化的趋势,“网络侵财”犯罪随之发生。虽然“网络侵财”犯罪本质上仍属于传统侵财犯罪的变种,但以网络诈骗、网络盗窃为代表的新型网络侵财犯罪其危害程度和侦查难度远远高于传统侵财犯罪。日益猖獗的网络侵财犯罪给社会和广大群众带来巨大财产损失,与此同时,网络侵财犯罪的出现对我国传统侵财类案件的侦查思维、侦查模式也产生了颠覆性冲击。因此对网络侵财犯罪的研究具
学位
2013年,中国共产党召开十八届三中全会,对包括经济和政治体制改革在内的六个方面改革进行了全面系统的部署。“转变政府职能”作为深化经济体制改革、发挥市场经济体制优势的内在动力,成为一项迫切要求。2017年,党的十九大报告提出要进一步深化机构改革和行政体制改革,统筹设置机构,明确职责,进一步转变政府职能,深化简政放权。2018年2月,党的十九届三中全会提出要“以国家治理体系和治理能力现代化为导向,深
学位
硅氧化物负极材料,由于较低的成本、较高的循环稳定性以及较高的理论比容量,有望成为传统锂离子动力电池负极的替代材料。然而硅氧化物材料的首次效率较低,同时较差的导电性也限制了其容量的发挥。本文首先以葡萄糖为碳源,采用水热法结合后续热处理在微米级氧化亚硅颗粒外部包覆一层热解碳,制备得到具有核-壳结构的Si O@C@CMSs复合负极材料。不同碳包覆量样品中Si O@C@CMSs-2样品的性能最优,在50
学位
高氯酸铵(AP)是固体火箭推进剂中一种重要氧化剂,为达到更高的燃烧速率通常需要加入催化剂促进其热分解,传统催化剂主要是过渡金属氧化物,但其活性位点较少极大限制了其催化性能。而碳基单原子作为一种制备成本低、催化活性高且绿色环保的新型催化剂,因其优异的催化活性,被广泛应用于各类催化领域;此外,碳载体可用生物质为原料制备,能有效降低催化剂成本且对环境友好,生物碳本身具有的掺杂元素也可使催化性能更佳。因此
学位
面对环境问题严峻和能源短缺的现状,全球正致力于实现可再生能源逐步替代传统化石能源。风力发电是目前最具开发利用前景的可再生能源发电方式,世界各国在面对风电行业降本增效的需求下不断提升技术研发水平。机组大型化是风电领域的研发重点之一,风电机组现有塔筒形式在机组大型化趋势中出现了各种发展瓶颈,为此本课题组提出了一种新型风电机组混合结构塔筒。风电行业还面临着事故频发的问题,风电塔倒塌的重要因素之一是风电机
学位
下击暴流冲击地面之后,气流沿地面进行传播扩散过程中,会产生破坏力极强的灾害性强风,造成包括建筑物和输电线塔等工程结构的严重风灾损失。同时,下击暴流在我国西南地区等山地地区中频发,由于山地地形效应,其在山顶位置出现风加速效应,进一步加剧了山地下击暴流的致灾性。目前对边界层风场的山地效应研究较为深入和系统,形成了用于工程结构设计的风场模型,但缺乏下击暴流山地加速比模型。因此,亟需开展考虑地形效应的下击
学位
“郡县治,天下安。”在“全民创业”的背景下,县域创业工作尤为重要。中央先后推出一系列鼓励创业的政策,创业担保贷款政策作为其中的重要政策之一,为创业者提供政策性的信贷支持,此项政策在促进创业,提高就业率和维护社会稳定方面起到了重要的积极作用。但此项政策在运行过程中仍存在需要完善的地方,如申请资料及手续不够简便、担保机制不完善、贷后资金管理欠缺等问题,使其政策效果尚未得到充分发挥。为使创业担保贷款政策
学位
无论是在工业上还是国防上精密装配作业都很常见,但是目前工业机器人主要采用传统的位置控制,缺乏环境感知和环境顺从的能力,这就导致了这类作业整体的自动化水平还比较低下,主要由人类或者人机协同来完成。为了提高生产力,解放双手,尽快完成我国制造业转型,迈向制造强国,实现机器人自主装配作业显得很有必要。本文将计算机视觉和柔顺控制技术应用于工业六轴机器人上,研究了机器人对高精度方形套件的自主柔顺装配方法。通过
学位
口译是一项多任务同时处理的活动。译员在听到原语信息时,要充分调动自己的知识进行逻辑分析,将重要信息储存进短期记忆,并在短期记忆消逝前转换成代码,用译语表达出来。此外,译员在表达的同时还要留有一部分精力用来接收和分析新信息。因此,口译过程中各项任务精力的合理分配对高质量译语输出至关重要。2021年10月,笔者对俄总统普京等领导人在“俄罗斯能源周”国际论坛上的发言进行了模拟同声传译实践活动。该论坛涉及
学位