论文部分内容阅读
准确、及时的灾害信息收集,在减少灾害风险具有重要的意义。微博作为一种新型的社会化媒体,提供随时随地分享信息的渠道,在灾害信息传播中发挥重要的作用。微博基于社会网络的信息传播方式,实现了信息的高效聚合,然而由于微博信息发布便捷、用户门槛低,导致信息过载、碎片化及可信度低等问题,如何从海量微博信息中挖掘有意义的信息成为本文研究的重点。本文基于关键词抽取技术,探索微博灾害信息聚合方法,同时结合实验室采集微博语料,对聚合方法进行评价。本文通过构建主题特征词库,对微博文本进行标注,计算TF-IDF(Term Frequency-Inverse Document Frequency)权重,排序产生关键词列表,采用向量空间模型文本表示,结合TF-IDF权重进行文本聚类,获得主题微博集。分别对微博文本中包含的灾害特征项及地名特征项进行抽取,获得灾害关键词及地名关键词,进一步对包含地名关键词的微博文本进行空间统计及地图匹配,产生热点事件地图。由于微博文本存在多地名、地名尺度不一致等问题,通过构建分级地名词库,对不同尺度地名进行分级标注,筛选TF-IDF权重大、尺度小的地名作为文本对应地名,结合地理编码,实现灾害信息的空间聚合。实验室采集2012年9月15日至10月2日期间微博语料进行台风灾害信息聚合,聚合结果显示:(1)认证微博(如中央气象台、新浪天气等),能够跟踪报道灾害过程,消息有效性高,基于灾害关键词聚合,查准率为0.974,查全率为1,基于地名关键词聚合,查准率为1,查全率为0.851;(2)普通微博(随机用户),分布较广,能够有效的弥补认证微博、新闻专题报道覆盖盲点,在热点事件发现具有重要的价值,基于灾害关键词信息聚合,文档权重前10%,查准率较高为0.855,但查全率较低为0.276,随着抽取区间的扩大,查准率降低;基于地名关键词信息聚合,查准率为0.850,查全率为0.665,可见有效的灾害信息通常携带地名。综合上述方法,在具体应用环境中构建在线微博灾害主题聚合原型系统,用户输入主题关键词,产生灾害关键词列表,用于灾害链发现及灾害信息检索;同时产生灾害热点事件地图,用于快速识别灾害发生地。