论文部分内容阅读
随着文化建模的发展,背景知识开始用于预测组织的恐怖行为。组织采取的恐怖行为往往受组织相关的背景知识影响,因此,利用与组织相关的背景知识预测恐怖行为,可以提高预测的准确率。目前,基于背景知识的恐怖行为预测算法研究大多还局限在恐怖行为数据集中属性完整的情况,然而,由于恐怖行为很少发生,很多信息难以获得,背景向量中的部分属性常会出现残缺。此外,大多数预测算法在所有属性都完整的情况下效果较好,当部分属性缺失时,就严重依赖于补充残缺属性的预处理技术,不仅增加了时间复杂度,而且也降低了算法的预测精度。另外,恐怖行为数据集中存在严重的类不平衡问题,严重影响了分类器对恐怖行为的分类效果。 因此,本文针对恐怖行为数据集的特点,对各种特征降维算法进行分析和研究,提出了基于最大化背景向量与行为之间依赖关系的特征提取方法,解决了属性残缺对预测的影响。针对数据的类不平衡性对预测造成的影响,提出了改进的SVM恐怖行为预测算法。论文的主要内容如下: (1)提出了压缩背景空间算法(Compressed Context Space,CCS)。CCS算法基于希尔伯特。施密特独立标准和希尔伯特-施密特范数,通过使得背景向量线性投影后的低维特征与行为之间希尔伯特-施密特范数最大化,从而实现背景向量与行为之间的依赖关系最大化,更好地发现两者之间的关联性,减小属性值残缺带来的影响。然后利用分类模型支持向量机(Support Vector Machine,SVM)对低维特征进行学习(CCS+SVM),实现高效预测。在恐怖组织行为族群(Minorities at Risk Organizational Behavior,MAROB)数据集上的实验表明:基于CCS+SVM的性能优于SVM模型、基于传统特征提取方法主成分分析(Principal Component Analysis,PCA)和典型相关性分析(Canonical CorrelationAnalysis,CCA)的SVM模型,以及已有的恐怖行为预测算法CONVEX。 (2)提出了一种基于权重因子的改进的SVM算法。该改进的算法通过给予软边界SVM算法中少类和多类样本对应的松弛变量不同的权重,提高少类样本的权重,从而增大少类样本对模型的影响,进而提高对少类样本的预测能力。在恐怖数据集MAROB中ARMATTACK和BOMB两种恐怖行为的实验表明,改进的SVM算法对少类样本的预测效果要优于几种典型的机器学习算法,尤其在查全率方面都有明显优势。 (3)采用模块化的设计原理及面向对象思想,利用Java语言在MyEclipse2014开发平台下,设计并实现了基于特征提取和类不平衡问题预测恐怖行为的原型系统。