论文部分内容阅读
特定事件是指涉及大众的生命和财产安全,对人们的生活产生重大影响,并在互联网上广泛传播和扩散的公共安全事件。对特定事件进行快速检测和发现,为有关部门快速应对和处置争取到时间,对降低事件的负面影响、最大程度地挽救人民生命财产安全起到积极的作用,近年来已成为国家和社会关注的重点研究方向。 在互联网环境下,网络世界与现实世界形成虚实映射关系,现实生活中发生的事件会通过网络中的不同渠道和媒体从不同侧面来反映与表达。通过分析网络空间中的不同媒体数据及时感知现实生活中的事件,已成为当前有效处理特定事件的重要技术手段。 本文聚焦在微博数据的事件发现上。一方面,相比新闻数据,微博数据量大、及时性强,重大公共事件往往在微博平台上首发,通过转载机制迅速传播,产生巨大的社会影响,因此对微博数据进行特定事件发现意义重大。然而,微博数据量大、噪声多、文本短、表达能力弱、多用流行语,又给微博事件发现带来诸多挑战。 另一方面,特定事件仅涉及有限领域内的事件,如地震、火灾、瘟疫、暴恐等。相比于开放领域事件发现技术,特定领域事件发现更容易通过对领域知识的充分利用,提升发现的精度。因此,本文借助领域知识以及微博图文并茂的特点,提出了基于领域知识的融合文本和图像内容的事件检测方法来应对上述挑战。主要工作包括: (1)融合微博文本和图像数据的短文本扩展方法。针对微博文本表达不够甚至以图代文的特点,对图片语义进行挖掘以补充文本知识。图片语义挖掘分为两部分:先对图片进行OCR文字识别,进而扩充原始文本;再对图片进行主题挖掘,抽取特征进行图像检索,得到匹配图片的主题对短文本进行补充。从而在一定程度上扩充了短文本的语义,提升了事件发现的效果。 (2)基于领域知识和事件触发词挖掘的事件发现技术。针对微博噪声数据多、主题多样性的问题,采用事件触发词过滤的方法,避免了传统无监督的事件发现方法精度不够的问题。针对事件触发词过滤,本文提出了一种基于条件随机场(CRF)的事件触发词发现方法。通过对文本序列学习得到事件触发词,相比于传统基于关键词的过滤,其可扩展性和准确性得到大大提升。在此基础上,结合领域知识抽取时间、地点和领域特征表示文本再进行分类,有效刻画了事件的时空特性、主题类别和致灾因子与主体间的触发关系,进一步提高了事件发现的精度。 (3)独立设计并搭建了基于Storm流式计算框架的微博特定事件检测系统。在该系统上对各领域事件进行检测和分析,实验结果表明系统运行性能良好,可满足实际应用实时、在线、流式计算的需求。