论文部分内容阅读
微博发展迅速,是一种流行的在线社交网络。微博用户数量巨大,且内容具有实时性,因此它是研究人员挖掘公共安全相关信息的有用工具。基于微博的公共安全事件提取和风险评估,一方面能够快速获取公共安全事件,让相关人员了解当前发生的安全事件;另一方面通过对事件进行风险评估,能够让相关人员了解不同公共安全事件的风险状况,从而有效进行安全防控。本文将事件提取算法应用于公共安全领域及中文微博。本文旨在发现适合公共安全领域及中文微博的事件提取方法,将其用于相应系统。本文主要采用基于突发词的公共安全事件提取算法,同时和基于文档的方法进行了对比。文中分析了公共安全和非公共安全的事件提取的区别。例如,其提取需要更高的实时性,且决策者往往仅关注某一范围的事件,因此也和位置相关。在基于突发词的方法中,将不同微博按照省份分组;在每个组内提取出微博文本中的关键词,利用频率变化过滤出突发词,将其表示成向量;而后利用Single-pass聚类算法,将突发词向量聚类,得到的不同的类别;最后对每个类簇进行分析合并,得到不同的的公共安全事件。算法的选取考虑了公共安全事件对于实时性的要求。同时,文中采用复旦大学公共数据集,用实验对比了突发词和文档的事件提取方法的结果,实验表明基于突发词算法的精确率和召回率均高于基于文档的方法,而效率却更高。在公共安全事件提取后,本文提出了基于影响力和情感的公共安全风险评估算法。针对微博数据,采用影响力和情感两个指标,它们不仅能够通过微博数据有效获得并计算,同时能反映一个事件的发展态势以及人们的心理,进而能够评估风险。本文利用提取出的事件,结合最近的武汉新冠肺炎相关微博,分别采用矩阵定级法和模糊综合评价法等定性法和定量法对相关事件进行风险评估。在计算影响力时,基于Page Rank和用户行为;计算情感时,采用Valence-Arousal二元情感空间表示法,基于SVM和LSTM的回归模型,得出事件的情感极性值和强度值。最后,在公共安全事件识别后的相关微博上,采用定性和定量评估算法进行了实验,得出了不同事件的风险等级。结果表明两种方法均大致符合实际,而矩阵定级法更加直观。同时,结果表明了提出的影响力和情感指标的有效性。最后,设计实现了公共安全事件提取和风险评估系统,验证了采用的事件提取和提出的风险评估算法的可行性。