基于Spark的均值漂移算法在网络舆情聚类中的应用

来源 :软件导刊 | 被引量 : 0次 | 上传用户:yangtianmei01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为改善网络舆情态势感知与预警中舆情信息分析不准确的问题,提出基于Spark技术的均值漂移(MS)算法,利用该算法原理分析Spark框架特性,给出该算法在Spark框架中的实现过程,包括舆情信息预处理、特征提取、特征向量模型构建和算法聚类设计。在相同数据集下将MS算法和K-means算法聚类效果进行对比,实验结果显示,K-means算法聚类结果受k值选取的影响,存在聚类结果不准确的问题;基于Spark的Mean Shift算法在没有任何先验条件下舆情聚类效果优于K-means聚类算法,且符合预期期望。
其他文献
针对城市轨道交通车辆架控制动系统的工作原理和检修工艺要求,提出了相应的检修试验方法,并开发了城市轨道交通车辆架控制动系统综合检测装置。介绍了该检测装置的工作原理、
目的超声造影(ultrasonic contrast)和螺旋CT及MRI在评估肝癌介入综合治疗术后肿瘤残留活性病灶的价值。方法分析我院收治的120例经病理诊断且治疗后的肝癌患者临床资料,在经
目的分析以问题为导向的护理模式对肝癌介入治疗效果分析。方法选择该院2018年2月—2019年2月收治肝癌介入治疗94例患者临床资料,按随机数表分为两组,对照组47例采用常规护理
为了改善一般常用水轮机模型基于实测数据参数进行辨识过程中底层编程繁琐的缺点,基于电力系统仿真中常用的理想水轮机数学模型,取134组模拟实测输入输出数据,用最小二乘与基
患者女,30岁。因“血尿伴右侧腰部疼痛4日”入住我院泌尿外科。患者于2018年7月无明显诱因出现全程血尿,伴血块;伴右腰背部疼痛,剧烈难忍;伴恶心呕吐,呕吐物为胃内容物,无尿
目的探讨多层螺旋CT在胃肠道间质瘤(GIST)的应用。方法回顾性分析经病理证实的24例胃肠间质瘤患者的CT资料,所有患者均行CT平扫及增强扫描。结果24例GIST中,位于胃部16例,小
目的探讨胸膜肺母细胞瘤(PPB)的CT表现,加深对本病的影像学认识。方法回顾性分析8例经穿刺或手术病理确诊的胸膜肺母细胞瘤患儿的CT图像特征,8例均行平扫及增强扫描。结果本
日本高速公路运营界联合发布了治理货车超限超载的新办法,在基于ETC等高度信息化管理技术的基础上,将不同情况下的超限超载行为进行精细归类并配有相应扣分项,采用非现场处理
目的探讨自由角度及改制后固定角度穿刺架在甲状腺细针抽吸穿刺中的可行性及准确性。方法模拟甲状腺细针抽吸穿刺建立模型,由10位医生分别通过徒手穿刺、使用自由角度穿刺架
目的评价CT增强对腹内型韧带样纤维瘤病(IAF)与胃肠道间质瘤(GIST)的鉴别诊断价值。方法收集病理证实的IAF患者23例(IAF组)和GIST患者37例(GIST组)的资料,均行CT平扫和CT增强