论文部分内容阅读
随着互联网技术的高速发展和移动通信技术应用的空前繁荣,社交媒体成为社会生活中人们获取和分享信息的重要工具,用户越来越喜欢在社交网络上发表言论和观点。社交媒体也得益于用户量的增长,从而在很多重要的传统领域发挥着极为重要的作用。推特在政治活动、自然灾害等重大事件发挥的重要传播作用使得针对社交网络的事件检测和事件可视化工作受到了极大的重视。 推特事件可视化是指将事件在图形界面中进行展示,并提供相应的事件信息的过程。在事件信息中,地理位置对用户评估事件影响、感知事件发展具有十分重要的作用,因此对事件发生的地理位置进行识别是对事件进行可视化的前提条件。多连词是指表示完整的人名、地名等实体的名词词组。统计发现有超过一半的地名是多连词,为了对事件进行准确定位,需要对多连词进行识别。本文以推特短文本为研究对象,重点研究了推特短文本的多连词识别技术、事件定位技术和事件信息可视化方法。本文主要在以下几方面进行了创新设计与实现工作: (1)提出基于无监督学习的多连词识别方法。为了实现多连词识别,又提出一种基于模式匹配的推文预处理方法,通过匹配特征对推文进行规范化和分词。以预处理为基础,使用一种无监督的多连词识别方法,在无标注的推文集合中提取多连词信息,结合正规文本的多连词特征,训练多连词列表,进行多连词识别。在实际推文训练和测试中,相比于传统的多连词识别方法,本方法随着处理推文数量增加,可以显著提高多连词识别的准确率。 (2)提出基于最大熵模型的推特事件定位方法。本方法对最大熵模型的特征模板进行改进,结合多种语义信息进行特征构建,使用词性标注和实体标注后的训练集对最大熵模型进行二分类训练,从而识别文本中的地理名词。在此基础上提出了基于位置信息的加权定位算法,根据文本地理位置、用户位置和发推位置对推特事件进行定位。本方法提高了推文地名识别准确率和召回率,同时,事件定位算法能够高效准确的对事件进行定位。 (3)设计实现了一套地理信息融合的事件可视化系统。本系统基于推特事件的地理位置进行信息可视化系统的构建,实现了对事件的预处理、定位和实时可视化功能。系统以地理位置信息为基础,结合电子地图对事件信息进行展示。在实际测试中,系统能稳定完成可视化工作。