推特中的非特定事件检测方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:duanxinyu0056
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交网络的兴起和发展带给人们生活极大的便利和变化。社交网络网站一般拥有百万以上的注册用户,全球范围内著名的社交网络网站有脸书(FaceBook)、推特(Twitter)、微博等。社交网络中传播着大量有用信息,而且推特等社交网站对一般用户开放了API以方便获取数据,这些因素使得近年来基于推特的数据挖掘研究迅速增加。事件检测是其中的一个热门研究,可分为特定事件检测和非特定事件检测。本文基于推特平台以英语文本为研究对象,以非特定事件检测为研究课题。重点研究了短文本语义相似度计算方法、非特定事件检测方法和在线非特定事件检测系统实现。本文主要在以下几个方面进行研究和创新:(1)提出基于知识和语料库结合的短文本相似度计算方法。该方法基于改进词语语义相似度计算方法和一般短文本语义相似度计算方法。改进词语相似度方法通过一种选取融合的策略结合两种词语语义相似度,结合两种方法的优点以弥补单个方法的不足,发现更多文本中词语的语义联系,提升相似度的准确性。本文使用大量测试语料集对多种算法进行对比测试分析,改进方法在词语相似度和短文本相似度结果上比其他方法更贴近人工标记结果。(2)提出基于文本增量聚类的非特定事件检测方法。主要改进了事件检测中的增量短文本聚类方法,改进方法是一种包含了贪婪聚类、重聚类、合并类、类删减和可选的语义相似度计算的方法。它针对现有聚类算法缺乏语义相似性计算、增量聚类的顺序影响性和聚合效果差的问题进行改进。此外提出一种基于聚类结果特征的事件识别方法。在真实推文数据测试中改进聚类方法比原方法在聚类效果和顺序影响方面有较大提升,事件检测方法的召回率和准确性也满足应用需求。(3)设计实现了基于推特的非特定事件检测系统。本文对非特定事件检测系统进行了编程实现,主要包括语义相似度计算、非特定事件检测、文本预处理和图形界面。该系统为了处理社交网络的大量数据信息,针对各个模块分别提出了优化方法。在使用真实推文对系统进行的功能测试和优化性能对比测试中,该系统功能正常,优化方法使模块性能有较大提升,使系统能满足在线事件检测的要求。
其他文献
人机交互在现代社会越来越受关注,让计算机识别人类情感状态是实现智能互动的基础。语音是人类交往过程中信息交流、传递情感最自然有效的手段。语音情感识别研究不仅积极推进
协作分集技术是未来无线通信中对抗信道衰落的有效手段之一,该技术可以使分布在不同地理位置的网络节点共享彼此的天线,从而构成虚拟的多天线阵列来获得空间分集增益。然而,协作
本文的主要研究目的是利用双目立体视觉以及拼接测量的知识获取大型可展开天线关键点的三维坐标。该天线采用轻质柔性材料制作,因此在实际测量中,当外部环境变化时该天线容易发
摘要:模式选择算法是视频编码的一项关键技术,H.264/AVC、AVS等视频编码标准都采用了基于率失真优化的模式选择,与以往的视频编码标准相比,它们的编码效率有了很大的提高。但
无线光通信因其具有无需频率许可、低成本、安装方便、通信安全保密等优点,近年来一直是人们持续研究的热点。而以分集技术,智能天线为标志的MIMO技术则令射频无线通信发展日益
随着集成电路制造工艺的进步和处理器设计水平的不断提高,众核技术已成为当前处理器体系结构发展的必然趋势。处理器的复杂度呈指数幅度上升,使故障的查找和修复变得越来越困难
普通摄像器材由于本身视场角的限制,不能一次性地拍出超宽视场图像,鱼眼镜头可以克服这个缺点,但是鱼眼图像具有严重的桶形畸变,在利用鱼眼图像信息之前,需要对鱼眼图像进行校正展
基于阵列波导光栅的光纤光栅解调方法是一种极具潜力的新型光纤光栅解调方法,具有精度高、解调速度快等优点。通过将解调系统的组成部分诸如光源、耦合器、阵列波导光栅、光电
当今,随着凹印复合生产流程信息化的快速发展,印前的决策作用越来越突出。并且在凹印复合流程中积累了大量内容丰富的数据,这些数据如果用得好的话,将会成为决策的重要因素。对于
随着互联网在各行各业中正起着越来越重要的作用,互联网拓扑识别有助于科研人员保证互联网的良好运行,提升网络性能。路由器级的网络拓扑,反映了网络中路由器间的连接关系,是