论文部分内容阅读
社交网络的兴起和发展带给人们生活极大的便利和变化。社交网络网站一般拥有百万以上的注册用户,全球范围内著名的社交网络网站有脸书(FaceBook)、推特(Twitter)、微博等。社交网络中传播着大量有用信息,而且推特等社交网站对一般用户开放了API以方便获取数据,这些因素使得近年来基于推特的数据挖掘研究迅速增加。事件检测是其中的一个热门研究,可分为特定事件检测和非特定事件检测。本文基于推特平台以英语文本为研究对象,以非特定事件检测为研究课题。重点研究了短文本语义相似度计算方法、非特定事件检测方法和在线非特定事件检测系统实现。本文主要在以下几个方面进行研究和创新:(1)提出基于知识和语料库结合的短文本相似度计算方法。该方法基于改进词语语义相似度计算方法和一般短文本语义相似度计算方法。改进词语相似度方法通过一种选取融合的策略结合两种词语语义相似度,结合两种方法的优点以弥补单个方法的不足,发现更多文本中词语的语义联系,提升相似度的准确性。本文使用大量测试语料集对多种算法进行对比测试分析,改进方法在词语相似度和短文本相似度结果上比其他方法更贴近人工标记结果。(2)提出基于文本增量聚类的非特定事件检测方法。主要改进了事件检测中的增量短文本聚类方法,改进方法是一种包含了贪婪聚类、重聚类、合并类、类删减和可选的语义相似度计算的方法。它针对现有聚类算法缺乏语义相似性计算、增量聚类的顺序影响性和聚合效果差的问题进行改进。此外提出一种基于聚类结果特征的事件识别方法。在真实推文数据测试中改进聚类方法比原方法在聚类效果和顺序影响方面有较大提升,事件检测方法的召回率和准确性也满足应用需求。(3)设计实现了基于推特的非特定事件检测系统。本文对非特定事件检测系统进行了编程实现,主要包括语义相似度计算、非特定事件检测、文本预处理和图形界面。该系统为了处理社交网络的大量数据信息,针对各个模块分别提出了优化方法。在使用真实推文对系统进行的功能测试和优化性能对比测试中,该系统功能正常,优化方法使模块性能有较大提升,使系统能满足在线事件检测的要求。