基于词向量的微博事件追踪方法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:cryingboy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博文本长度短,且网络新词层出不穷,使得传统方法在微博事件追踪中效果不够理想。针对该问题,提出一种基于词向量的微博事件追踪方法。词向量不仅可以计算词语之间的语义相似度,而且能够提高微博间语义相似度计算的准确率。该方法首先使用Skip-gram模型在大规模数据集上训练得到词向量;然后通过提取关键词建立初始事件和微博表示模型;最后利用词向量计算微博和初始事件之间的语义相似度,并依据设定阈值进行判决,完成事件追踪。实验结果表明,相比传统方法,该方法能够充分利用词向量引入的语义信息,有效提高微博事件追踪的性能。
其他文献
《第三块大陆,最后的故土》是印裔女作家裘帕·拉希莉的小说短篇集《疾病解说者》中的最后一个故事,讲述了一位印裔美国人,先后在印度、英国及美国生活的故事,体现了众多远离
本文根据板栗生产所需的气候条件,结合遵化市气象灾害,探讨影响板栗生产的气象灾害防范措施,以达到发展遵化市板栗产业的目的。
目的调查某家综合性三甲医院抢救患者在急诊室的滞留状况,为进一步加快急诊抢救患者的分流,提高急诊服务质量提供依据。方法使用急诊预检分诊数据库,回顾性调查分析某综合性
采用液相沉淀法制备Co3O4纳米颗粒,不同比例的Co3O4与氧化石墨烯(GO)进行机械研磨得到Co3O4/GO复合材料。采用包括拉曼光谱在内的多种表征手段对Co3O4和Co3O4/GO复合材料进行
医务人员职业暴露,是指医务人员在医院内从事诊疗、护理或检查、检验工作过程中,意外受到危险因素、病原体或含病原体污染物,造成感染与健康损害和潜在感染及健康损害的情况。目
交互式电子技术手册(Interactive Electronic Technical Manual,IETM)是计算机技术发展的产物,IETM技术能够对产品的技术资料进行数字化存储、管理和使用,实现技术信息的共享
每年的公历4月5日是我国民间传统的清明节。据说清明节最早起源于魏晋南北朝时期,后来到了唐代唐玄宗时期就对清明节加以肯定和重视,皇帝曾下诏令清明节放假。国务院决定,从2008
<正>基本医疗保险关乎全民医疗权益。随着医保制度的全覆盖,确保医疗服务公平、高效和可持续发展,成为新时代医保工作的重心。为依法规范医保秩序,严厉打击欺诈骗保行为,有效
阅读对于语文教学就如氧气对于人的生命一样重要,它既是语文学习的动力源泉,也能怡养性灵、健全人格、提高个人修养。阅读能力不仅是学习能力的前提和基础,也是学生综合素质和生
1964年我离开印度,怀揣一张商务证书,名下只有那时相当于十美元的一笔钱。我乘意大利货船“SS罗马号”走了三周,舱位靠近船的引擎,经过阿拉伯海、红海、地中海,最终到达英格