面向安全领域的文本知识抽取与叙事生成

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:the1295
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的进步和互联网的不断普及,网络中涌现出大量的开源文本。海量开源文本的出现给信息抽取技术的发展带来了巨大的机遇和挑战。同时,在社会计算兴起的大背景下,针对安全领域的情报分析、行为建模和计算归因模型等研究领域都迫切的需要大量来自真实世界的行为知识的支持。因此,从海量开源文本中抽取行为知识已经成为社会计算的核心研究课题之一。   面向安全领域,本文系统研究了海量开源文本中的行为知识和事件信息的抽取方法,并分别利用来自真实文本的行为因果知识和事件信息构建因果叙事和安全事件叙事。论文主要研究工作的主要贡献如下:   研究了行为知识的自动化抽取方法。针对海量开源文本,首次提出结合行为知识推理与统计学习方法的行为知识抽取框架。本文并行抽取行为前提、结果和行为时序关系;基于三种行为知识间的语义关联,本文将基于知识推理的隐含行为知识获取和基于信息抽取技术的显式行为知识抽取有机的结合起来,设计了结合知识推理和Bootstrapping的半监督行为知识抽取策略;并利用安全领域和电子商务领域的海量开源文本测试了所提出的行为知识抽取算法的有效性。   在本文设计并实现的行为知识抽取算法中:1)设计了针对依存句法关系的语义规则,不仅能够减少句子中的修饰成分给行为知识抽取带来的干扰,而且能提高匹配效率;2)设计了针对行为知识和语义规则的语义相似度计算方法,并基于语义相似度和统计关联信息构建了行为知识和规则的确信度评价准则,有效的提升了行为知识抽取算法的性能;3)提出了结合行为知识推理和Bootstrapping方法的行为知识抽取策略。该策略利用行为知识间的语义关联,通过知识推理获取隐含的行为知识,并用于扩充Bootstrapping方法抽取的行为知识集合,改善行为知识抽取性能。此外,本工作利用已有常识知识库获得初始知识抽取规则和常识知识。从已有常识知识库中获得初始规则和知识能够保证规则质量和补充文本中常识知识的不足,同时也能减少行为知识抽取中的人工参与。   研究了因果叙事的构建。本文针对归因理论中人们判断社会因果和责任的关键变量,如意图、先验知识和强制,设计并实现了面向组织行为的因果叙事生成系统。在安全领域内,从海量开源文本中抽取了组织相关的社会行为和行为前提和结果知识,并构建了行为层次结构;在计算归因模型的推理规则指导下,利用网上获取的真实社会行为和因果知识生成了可用于社会因果推理的因果叙事;最后,利用一个典型激进组织的历史数据验证社会行为和因果知识抽取的有效性,并生成因果叙事。   研究了面向安全事件的叙事生成。本文定义了面向安全事件的叙事结构并搭建了安全事件的叙事生成系统。在以特定安全事件为主题的海量开源文本中,抽取与该主题关联的事件及事件相关要素,并基于规则和本体知识正规化事件要素;通过事件类型、发生时间和地点判断事件间的时序和因果关系,并按照叙事结构的要求设计了针对安全事件的叙事生成方法。最后,以一个网络报道的安全相关事件为例测试了事件及事件要素抽取的有效性并利用叙事生成系统生成面向安全事件的叙事。
其他文献
云计算通过虚拟化和聚合等技术将大量服务器的计算力和存储资源整合在一起,形成一个庞大的资源池,并以服务的形式将计算力和存储能力对外输出。为了保证云计算平台所提供服务的
作者在钻研计算机应用与控制技术、计算机网络与通讯原理及其现代微控制器技术的基础上,对新型、高档、高性能、高速度面向21世纪的嵌入式(Embedded)单片机进行了新的探索和
当前,承受精神压力的人越来越多,心理健康问题已成为人类面临的一项重大挑战。精神压力识别可以帮助人们及时采取有效措施,缓解精神压力,保护心理健康,具有十分重要的研究意义。过
系统虚拟化技术是当前学术界与产业界广泛研究与探讨的一项信息技术,由于其在资源管理、服务器整合、绿色节能、安全隔离等方面的优秀特性,在当前日益兴起的大型数据中心与云
随着社会信息化程度不断提升,各种形式的电子数据积累越来越多,且产生速度不断加快,传统的数据库系统难以快速高效地从这些超大规模的数据中挖掘有效信息。频繁项集挖掘是一个典
图像分割是图像处理中的重要研究课题,随着图像处理技术在生产和生活中的广泛应用,图像分割也受到人们越来越多的重视。它作为图像处理中的关键环节,决定着最终的处理质量。由于
Max-SAT问题是一个著名的约束满足问题,在理论研究和实际应用中都有重要的意义。局部搜索框架是一个非常有效的解决带权重的Max-SAT问题的框架,本文提出了一种新的启发式的变量
随着多线程库的日益普及和多核处理器的快速发展,多线程软件技术被越来越多的开发者所使用。而在多线程软件中,并发错误是最难以处理的错误之一,不仅因为线程的调度受到操作系统
互联网时代的来临带来了数据的爆炸式增长,也使得传统的数据存储方式遭遇了新的挑战:虽然网络带宽和磁盘容量快速增加,但成几何级增长的用户数和应用需求,使得传统的数据分布式
随着经济的不断推进和信息技术的不断发展,以提供信息服务为目的数据密集型计算机应用系统越来越普遍。而信息系统的主要任务就是最大限度的利用现代计算机技术及网络通讯技术