论文部分内容阅读
随着信息技术的进步和互联网的不断普及,网络中涌现出大量的开源文本。海量开源文本的出现给信息抽取技术的发展带来了巨大的机遇和挑战。同时,在社会计算兴起的大背景下,针对安全领域的情报分析、行为建模和计算归因模型等研究领域都迫切的需要大量来自真实世界的行为知识的支持。因此,从海量开源文本中抽取行为知识已经成为社会计算的核心研究课题之一。
面向安全领域,本文系统研究了海量开源文本中的行为知识和事件信息的抽取方法,并分别利用来自真实文本的行为因果知识和事件信息构建因果叙事和安全事件叙事。论文主要研究工作的主要贡献如下:
研究了行为知识的自动化抽取方法。针对海量开源文本,首次提出结合行为知识推理与统计学习方法的行为知识抽取框架。本文并行抽取行为前提、结果和行为时序关系;基于三种行为知识间的语义关联,本文将基于知识推理的隐含行为知识获取和基于信息抽取技术的显式行为知识抽取有机的结合起来,设计了结合知识推理和Bootstrapping的半监督行为知识抽取策略;并利用安全领域和电子商务领域的海量开源文本测试了所提出的行为知识抽取算法的有效性。
在本文设计并实现的行为知识抽取算法中:1)设计了针对依存句法关系的语义规则,不仅能够减少句子中的修饰成分给行为知识抽取带来的干扰,而且能提高匹配效率;2)设计了针对行为知识和语义规则的语义相似度计算方法,并基于语义相似度和统计关联信息构建了行为知识和规则的确信度评价准则,有效的提升了行为知识抽取算法的性能;3)提出了结合行为知识推理和Bootstrapping方法的行为知识抽取策略。该策略利用行为知识间的语义关联,通过知识推理获取隐含的行为知识,并用于扩充Bootstrapping方法抽取的行为知识集合,改善行为知识抽取性能。此外,本工作利用已有常识知识库获得初始知识抽取规则和常识知识。从已有常识知识库中获得初始规则和知识能够保证规则质量和补充文本中常识知识的不足,同时也能减少行为知识抽取中的人工参与。
研究了因果叙事的构建。本文针对归因理论中人们判断社会因果和责任的关键变量,如意图、先验知识和强制,设计并实现了面向组织行为的因果叙事生成系统。在安全领域内,从海量开源文本中抽取了组织相关的社会行为和行为前提和结果知识,并构建了行为层次结构;在计算归因模型的推理规则指导下,利用网上获取的真实社会行为和因果知识生成了可用于社会因果推理的因果叙事;最后,利用一个典型激进组织的历史数据验证社会行为和因果知识抽取的有效性,并生成因果叙事。
研究了面向安全事件的叙事生成。本文定义了面向安全事件的叙事结构并搭建了安全事件的叙事生成系统。在以特定安全事件为主题的海量开源文本中,抽取与该主题关联的事件及事件相关要素,并基于规则和本体知识正规化事件要素;通过事件类型、发生时间和地点判断事件间的时序和因果关系,并按照叙事结构的要求设计了针对安全事件的叙事生成方法。最后,以一个网络报道的安全相关事件为例测试了事件及事件要素抽取的有效性并利用叙事生成系统生成面向安全事件的叙事。