融合word2vec和Single-Pass的微博话题检测方法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:lengkuhui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,微博借助于其自身的草根性、便捷性和对时事的迅速传播性越来越受到大众的欢迎,成为中国大众了解时事和参与热门话题讨论的主流媒体。微博是一种通过关注机制共享的短文本实时信息的广播式社交媒体和网络平台,基于该平台信息可以通过用户关系进行信息共享、传播和获取。用户间的相互交流和传播产生了多种多样的话题,微博的即时性极大的推进了话题的发展,形成并传播了热门话题。在一些引起广大网友讨论的微博话题中,参与阅读和互动的用户数量已达到过数千万,这些话题通常蕴含着重要的信息,并具有很强的社会影响力度,引起了众多专家学者的关注。因此,如何从大量的微博文本中准确的挖掘出热门话题具有重要意义。基于此,本文研究的工作围绕提高微博话题检测的准确性主要包括以下三个方面:(1)提出一种基于Word2vec和句子结构的内容树文本表示方法,提高计算文本相似度的准确性首先,在文本中提取特征词,将该特征词与文本分词后的其它词语根据皮尔逊相关系数进行相关度计算,创建内容树;其次,借助内容树将词语根据相邻词之间的相关性构造依赖于句子结构的词向量;然后对得到的所有词向量求平均值得到句向量表示;最后将该方法通过中文文本分类和文本相似度计算进行验证。(2)提出基于single-pass的微博内容层次聚类算法,提高微博话题检测的准确性首先将爬取的微博文本内容较少的文本进行过滤,保留内容较多、话题较丰富的文本,利用single-pass聚类算法进行优先聚类,形成话题中心;然后再将内容较少的微博文本输入,与已形成话题中心的微博文本进行聚类,最终提高了对微博话题检测的准确性。(3)设计并实现微博话题检测系统,将改进的文本相似度和话题聚类算法应用于系统中首先利用上述两种算法作为微博话题检测系统的理论依据,分析并设计系统相应的功能模块,然后实现基于微博的话题检测系统。该系统可以比较准确的分析出某个时间段内的热门微博话题。
其他文献
差示扫描量热分析仪(DSC仪)因其使用方便,精确度高等特点,多年来备受青睐。综述了近20年来DSC分析仪在大豆蛋白产品品质测定中的典型应用,涉及试验条件的选择及因试验条件不
目的探讨先天性唇腭裂修补术后的护理方法。方法对206例唇腭裂患儿术后予密切观察病情变化,口腔护理及伤口护理,饮食指导及健康教育。结果206例先天性唇腭患儿治愈出院。结论
目的:通过对急性心肌梗死(Acute myocardial infarction,AMI)患者体表心电图的分析,探讨急性心肌梗死患者心电图中碎裂QRS波群(fragmented QRS,f QRS)的发生情况,碎裂QRS波群
让我们想像一下10年后的2008年的个人电脑将是何种风貌?如果摩尔定律依然准确,届时个人电脑价格应与现在差不多,不过功能可要强上百倍。2008年的美国秋季Comdex可能出现这样的电脑:微处理器的速度
期刊
为保证盾构的顺利推进,需对既有护管桥钻孔灌注桩进行拔除处理,针对工程地质条件差且附近的大直径合流污水管对土体变形非常敏感的特点,选用360°全回转套管机进行拔桩施工,
季节性Kendall检验法是一种广泛应用于流域水质趋势分析的研究手段。以太子河干流主要控制性水利工程——葠窝水库为研究对象,通过构建Kendall检验模型对库区水质变化趋势及
本文以震前北川青片乡羌、藏民族旅游村寨为研究对象,基于利益相关者分析探讨了村寨旅游中的现状与问题,从利益相关者的构成、关系、功能等角度提出了合理的对策和建议。
沙漠化作为当今世界社会、经济和环境的重大问题,在国内和国际社会引起了广泛的关注。本研究以陕北榆林地区毛乌素沙地东南缘沙质草地沙漠化演替阶段空间序列为主线,通过实地
盐田隧道洞口段围岩条件不良,地下水丰富,隧道开挖进洞施工难度较大。结合工程实际与施工技术经验,确定采用井点法降水,并相应制定井点的布置与构造、成孔工艺、降水管理、降
重知识传授 ,轻智力培养 ;重知识的获得或表达 ,轻问题解决能力的培养 ,尤其创造性地解决实际问题能力的培养 ,是我国传统教学的弊端之一。课堂教学中重视问题解决能力的培养