论文部分内容阅读
本文依托国家“863”课题“泛在空间信息关联更新与面向主题时空信息挖掘研究”,探索面向事件的网页文本获取与检索服务方法,为多源网络信息的结构化表达、事件时空序列重构、可视化和挖掘分析提供数据支撑。本文围绕事件网页文本“数据获取—组织管理—检索服务”的技术主线,通过分析中文网页文本中事件信息的语言描述和信息组织特征,以自然灾害事件为例,开展了时空要素驱动的事件网页信息检索引擎关键技术研究。主要研究内容与结论包括以下几个方面:(1)时空要素驱动的事件网页获取:通过对描述事件网页文本内容及特征进行分析,构建以时间、空间位置和事件主题为基本要素的事件表达模板;依据事件表达模板中的内容,定制网络爬虫以获取描述事件的网页文本。实验表明,与传统爬虫相比,基于事件表达模板构建的事件主题爬虫具有良好的网页过滤功能,获取的网页具有较高的精度,但是因为在主题爬虫中引入了大量的计算,导致该爬虫的性能相对有所下降。(2)事件网页“时间—空间—主题”分布式索引与存储:利用规则模型和条件随机场模型实现了网页文本中事件相关时间、空间位置和主题信息抽取,提出了基于支持向量机模型的网页文本事件分类方法;构建了基于“时间—空间—主题”的分布式索引,以解决检索效率低的问题;基于HBase数据库和HDFS文件系统,实现了海量网页文本的分布式存储。(3)“文—图”交互式事件网页信息检索服务:通过归纳总结用户检索语句的描述特点,实现了事件信息检索语句的自动解析;借鉴同义词林的词汇组织方式,构建自然灾害事件领域词汇知识库和相似度检索模型,实现了候选网页文本和检索条件的相似度计算与排序。(4)原型系统设计与实现:基于本文提出的事件网页获取方法、分布式索引与存储方法、检索服务方法,利用Google Map API,设计了相应的原型系统;探讨了原型系统的体系架构,以及主要功能模块。