基于分布式K-means算法在微博热点主题发现的研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:btxzero
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,越来越多的网络媒体出现在我们的日常生活中,微博凭借其信息多样性、发布消息的实时性等特点,已成为大多数用户交流和获取信息的重要平台。在微博平台上,每日都会涌现出海量的微博数据,怎样从这些数以百亿计的信息当中及时发现潜在的热门话题,对政府机关监测舆情、企业管理者做出相关决策、普通用户获得社会热点信息变得尤为关键。本文以从微博中提取热点主题为背景进行研究,主要工作内容如下:1.论文首先详细的总结了微博热点主题发现所用到的关键技术,其次简要的阐述了包括中文分词技术、文本表示模型、文本相似度计算以及常用到的文本聚类算法,并指出了各种聚类算法的优缺点。2.设计了一个微博热点主题发现系统。首先采用微博API接口采集数据,并对采集的数据进行筛选和清洗;其次把过滤后的徽博数据做文本预处理,再利用NLPIR分词系统进行中文分词,同时,采用整合的停用词表去掉停用词;然后进行文本向量化,利用TF-IDF方法计算文本中每个词的权值并排序,提取出关键词;最后通过改进的K-means算法进行关键词聚类操作,使用微博的热度计算公式对聚类结果进行热度计算,并按顺序进行排列,得到微博热点话题的列表。3.针对K-means聚类算法依赖初始聚类中心选择的问题,提出一个基于Hadoop的分布式混合聚类算法。首先利用Canopy算法对文本向量化后的数据进行一次聚类,将获取的微博数据集划分为K个初始类;其次把获得的K值作为K-means算法的初始聚类中心,利用K-mcans算法进行二次聚类。通过对爬取的微博数据进行实验分析,结果表明,改进后的K-means算法比单一的聚类算法在查全率、查准率以及F1值上均有所提高,同时能够有效的发现微博热点话题。
其他文献
W.G.塞巴尔德(1944-2001)是当代德裔作家,他的最后一部长篇作品《奥斯特利茨》中,主要呈现了同名主人公回归过去,探索个人被压抑的历史的旅途。《奥斯特利茨》从核心主题上表达了对如何接触过去、再现过去的担忧,而穿插在文本中的黑白图像是其最主要的形式特点。本文抓住穿插照片图像这一形式上的特点,通过联系文本中记忆和时间的文学实验,探究作者如何最终实现主题上对过去的回归。文章将从塞巴尔德所处的时代
目的:探讨血浆脑钠肽(BNP)、超敏肌钙蛋白I(HS-CTnI)在左向右分流型先天性心脏病(CHD)合并重症肺炎婴儿中心功能评估的应用价值。方法:回顾性收集及分析自2015年6月至2019年6月于重庆医科大学附属儿童医院确诊的左向右分流型CHD合并重症肺炎婴儿的临床资料,均于入院24h内评估心功能,48h内完善心脏彩超。另选取同期住院的左向右分流型CHD无肺炎及心力衰竭(HF)婴儿为对照组。比较血
当配电网因故障停电后,如何快速并尽可能地恢复等级较高负荷节点的供电是故障恢复问题的主要任务,孤岛划分和配电网重构之间的合理配合,可以有效减少停电区域,提高供电可靠性
目的:建立短节段Schanz椎弓根钉T12和L2下斜固定治疗L1严重爆裂骨折(LSC≥7分)的有限元模型并评估其生物力学性质,探讨下斜置钉的安全性。方法:采集一名健康志愿者的胸腰段CT数据,建立L1重度骨折T12和L2 Schanz椎弓根钉下斜固定有限元模型。以平行上椎体终板置钉为0°,分别建立T12和L2Schanz椎弓根钉下斜O°、5°、10°和15°固定4组有限元模型。在T12上表面施加35
超级电容器因其应用成本低、循环效率高,且稳定性好、使用寿命长等特点,有望在绿色能源开发领域发挥重要作用。电极材料作为超级电容器的核心器件,其微观结构和材料组成直接
目的:通过体外观察转化生长因子-β1(TGF-β1)对大鼠支气管成纤维细胞(RBFs)Ⅰ、Ⅲ型胶原蛋白分泌的影响,探讨TGF-β1及大鼠支气管成纤维细胞在慢性阻塞性肺疾病(COPD)气道纤维化中的作用。方法:取5-6周龄,150-180g左右雄性SD大鼠,快速分离其支气管,利用酶消化法+组织块粘壁法体外培养大鼠支气管成纤维细胞;取生长状态良好的第三代大鼠支气管成纤维细胞,以0ng/ml TGF-β
伴随全球能源转型,航运业对节能减排和提高运行能效的要求越来越高,船舶综合电力系统逐渐由交流组网向直流组网发展。直流组网的船舶电力系统也可以称作船舶直流微电网。船舶
目的:1.研究顺铂慢性给药对大鼠胸主动脉的损伤作用及机制;2.研究顺铂对血管平滑肌细胞的损伤作用及机制;3.研究顺铂对大鼠离体胸主动脉环的损伤作用及机制。方法:1.8周龄的SD雄性大鼠,体质量240-260 g,随机分成三组,生理盐水对照组(NS组,ip给予生理盐水,n=8)、顺铂2 mg/kg组(ip给予顺铂2 mg/kg,n=8)、顺铂3 mg/kg组(ip给予顺铂3 mg/kg,n=14),
滇东南都龙锡铟多金属矿床构造位置上位于华南板块的西南部,并位于印支、华夏、扬子板块的结合部位,与个旧、簿竹山复式岩基组成一个近东西向的花岗岩带,三者大面积出露与矿化形成密切相关的花岗岩。通过对都龙矿区I号剖面8个钻孔采样分析,运用数理统计分析、分带序列研究、地球化学参数计算等方法,系统详细地研究了矿体原生晕地球化学特征,并在此基础上建立深部成矿预测模式。基于Grigorian分带序列定量计算公式获
目的:探讨胆红素及其变化对新生儿高胆红素血症伴发坏死性小肠结肠炎中的影响,为NEC防治提供新思路。方法:选取2015年1月至2018年9月重庆医科大学附属儿童医院新生儿中心收治的因新生儿高胆红素血症住院,期间发生NEC且修正Bell分期II期及以上病例作为NEC组,并按胎龄分为:早产儿组(35周≤胎龄<37周)和足月儿组(胎龄≥37周);根据胎龄和出生体重,按照1:4配比,随机选取相同时间段