基于用户行为的推特事件检测方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:yhl_2011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
步入Web2.0时代,各种社交媒体繁荣起来,成为人们活跃的另一个世界。推特是最活跃的社交网络平台之一,也是各种数据挖掘工作的热门平台。它不仅提供了海量丰富的数据,而且受益于推特提供的实时数据采集API,用户可以很容易获取推特上的实时数据。基于推特的事件检测就是从这些实时数据中提取有价值事件的方法,可以用于舆论监控、实时预警、减少灾害损失、实时智能决策,也可以作为新闻媒体的消息来源,以提高新闻发布速度、降低成本。基于推特的事件检测有很多种研究方法,其中最主要的是基于文本聚类的方法。以往基于文本聚类的事件检测方法仅考虑短文本聚合性差的问题,通过引入时间戳、Hashtag等额外的信息来改善该问题。然而,由于推文多噪的特点,这些方法会导致混入更多的噪声推文,从而影响事件检测效果。本文基于流式推文数据,针对推文多噪的特点提出了新的事件检测方法,主要研究内容和创新点如下:(1)针对推文流中存在大量噪声,提出噪声环境的事件检测方法。该方法首先通过增量聚类将推文聚合成事件簇,然后利用事件去重去除描述一个事件的多余推文簇。针对Single-Pass增量聚类顺序性等问题,提出了Batch-Pass增量聚类。它在Single-Pass增量聚类前引入预聚类,预聚类采用层次聚类等批量聚类方法,可以有效改善Single-Pass增量聚类的顺序性问题,并在一定程度上提高短文本的聚合性。针对社交短文本聚合性差导致的事件簇重复问题,提出基于语义SimHash的事件去重方法,该方法保证事件去重效果,并能适用于大规模实时数据的处理。(2)针对事件检测结果与现实事件不能完全对应的问题,提出基于用户行为特征的现实事件判定方法。通过对推特用户行为统计特性研究分析,发现用户的不同行为对事件在社交网络传播过程中有不同的作用。通过提取候选事件簇的统计行为特征和突发特征,利用有监督机器学习方法来实现事件判定。该方法通过从候选事件簇的推文文本、元数据中提取用户的统计行为特征,并结合推文的Kleinberg状态序列的突发特征,训练分类器,利用分类器实现对候选事件簇的二分类。实验结果表明,Batch-Pass比Single-Pass有更好聚类效果,在有噪声的情况下,提出的事件检测方法能检测出数据集中的所有预定义事件,同时比基于SinglePass的事件检测方法输出事件的冗余更少,基于用户行为的事件判定方法比基于Word2Vec语义的事件判定方法的准确率高6.88%。
其他文献
目的:调查上海北新泾街道60岁及以上人群白内障患病率、白内障盲人手术覆盖率和白内障盲人社会负担率。方法:随机整群抽样,对所有60岁及以上人群进行视力和眼部检查。了解接
【正】检委会是检察机关讨论决定重大案件和其他重大业务问题的业务决策机构。依法高效地作出决策是检委会发挥职能作用的关键和核心。提高检委会议事决策的质量和效率,既要
农药是保证农业生产不可或缺的物质,农药亦是饱受诟病背负破坏环境、危害食品安全恶名的物质。合理的选择、正确的使用农药,是保证农作物丰产丰收、食品安全的关键源头。随着
<正>李玉奇(1917~2011)出生于辽宁铁岭,生前曾任辽宁中医药大学教授、博士生导师、辽宁中医学院副院长,是国医大师。他从医六十余载,精研脾胃病三十余载。李老根据自己的临床
提升中小学教师的信息素养是基础教育信息化和基础教育课程改革的必然要求,是促进教师信息化专业发展的有效途径。本文通过对所在农村中学的教师信息素养现状及存在问题的分
目的:探讨健康教育路径对消化内镜检查患者焦虑情绪及生理应激影响的临床意义。方法:选取我院2016年1月-2017年6月行消化内镜检查患者110例,按随机数字法分为实验组(n=55)和
妊娠合并肺动脉高压(pulmonary arterial hypertension,PAH)是一种严重的产科合并症,因孕期心脏负荷增加,孕产妇病死率高。WHO将静息状态下肺动脉平均压>25mmHg和(或)肺动脉
"小金库"是个社会现象,具有普遍性、隐蔽性的特点。成为违法违纪贪污行为滋生的土壤,造成国有资产流失,扰乱了经济秩序,严重影响了企业的正常生产经营和行政事业单位的职能作
欧洲共同体是冷战格局和现代化的产物。为了避免成为美苏争霸的牺牲品,重新树立世界地位,经各成员国的多次商议后,欧洲建立起带有超国家性质的区域联盟。煤钢共同体、原子能共同