论文部分内容阅读
依托文化建模的发展,组织的背景知识信息开始用于预测恐怖行为。目前对于基于背景知识的恐怖行为预测大多选择样本量较为丰富的组织作为预测的对象。然而随着恐怖主义全球化,许多新产生的组织日益涌现,这类组织由于产生时间短且背景知识采集时间粒度大导致缺乏可用的样本。对于这种情况,是难以对恐怖行为进行有效建模的,这便使得已有的方法对于恐怖行为的预测存在预测困难或预测精度低的问题。因此,本文针对恐怖组织背景数据集的特性进行了分析和研究。1)提出了基于多源实例迁移的恐怖行为预测方法,解决了由于新组织缺乏可用样本对预测的影响;2)针对在多源实例迁移预测中源组织筛选失效导致预测效果降低的问题,提出了基于背景属性划分和聚类源组织筛选算法来改进恐怖行为预测效果。论文主要内容如下:(1)提出了基于多源实例迁移的恐怖行为预测算法(Multi-Organization Transfer Ada Boost,MO-TrAdaBoost)。该算法利用迁移学习方法可有效解决新领域学习的特性,通过在训练中使用源组织样本辅助目标组织训练并迭代地修正误分样本权重,从而克服缺乏样本导致预测困难的问题。此外,针对迁移中多源易退化成单源导致预测波动的问题,引入过滤机制和源组织权重因子优化知识迁移过程,在无法确定最优源的情况下使多数源组织都能参与知识迁移,并降低了迁移预测历史表现差的源组织对预测的影响。在恐怖组织背景数据集(Minorities at Risk Organization Behavior,MAROB)上的实验表明,在缺乏可用样本的情况下MO-TrAdaBoost算法与CONVEX算法、SVM算法相比,准确率和查全率分别提升13.2%和7.8%以上,并且MO-TrAdaBoost算法能很好地应对新产生组织的行为预测问题。(2)提出了一种基于背景属性划分和聚类的源组织筛选算法来改进行为预测效果。该算法利用信息熵反映变量不确定性的特点对背景属性划分,提取其中的常态属性(属性值不易发生变化)来反映组织的固有特性;针对源组织筛选失效的问题,考虑从组织固有特性角度挖掘组织间的关联性,以K-modes算法将与目标组织性质相近源组织聚为一类,从而在目标组织样本稀少的情况下对源组织实现有效筛选。由于仅有筛选后的源组织参与迭代训练,降低了预测的时间开销。此外,在迁移预测中仅在非常态属性(属性值不确定,易变化)上进行训练,避免了迁移中组织间常态属性差异对预测的影响。在MAROB上的实验表明改进后的预测算法(Improved Multi-Organization Transfer AdaBoost,IMO-TrAdaBoost)相较MS-TrAdaBoost算法在准确率和查全率上分别提高1.3%和1.9%,并在时间开销上降低了70.6%。(3)为验证上述算法实际应用的可行性,采用面向对象的程序设计思想,在Eclipse开发环境下使用Java开发语言设计并实现了基于迁移学习的恐怖行为预测原型系统。