基于改进K-Means的新闻聚类算法研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:yusaihua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着各种网络媒体的迅猛发展,获取新闻信息愈发便捷,但是这也造成了数据积累。如何在海量数据发掘潜在信息并有效利用成为现今重点研究领域。聚类分析是数据挖掘重要方法之一,被广泛应用在生物信息、金融、医疗等领域中。本文主要对新闻文本聚类进行研究,提出了基于改进K-Means的新闻聚类算法。首先,结合新闻文本的结构特征提出了TI值概念。TI值是基于正文特征词的词频-逆向文本频率(Term Frequency-Inverse Document Frequency,TF-IDF)值,结合了新闻的标题与导语两个重要因素产生的,用于文本特征向量的提取,以便使文本特征向量具有代表性,提高聚类效果。其次,针对最大距离算法时间复杂度高,聚类效果不稳定等问题,对其进行了优化,并结合TI值形成TIM_K-Means算法。该算法将TI值用于构造文本特征向量,并且改变了最大距离算法中距离的计算方式,从而降低算法的时间复杂度。此外还在初始中心选择过程中加入了孤立点检测,以便能够在迭代过程中去除孤立点,得到更加合理的初始聚类中心。再次,为了应对算法在处理海量数据耗时严重的问题,对算法进行了并行化改造。本文利用MapReduce编程模型对TIM_K-Means算法进行并行化改造,使其能够在Hadoop平台上运行。最后,采用准确率和误差作为衡量指标,利用采集自腾讯新闻网的文本作为数据集进行实验,以验证TI值和TIM_K-Means算法的正确性和有效性。并且利用阿里云服务器搭建Hadoop集群,采用加速比和可扩展性作为标准,对TIM_K-Means算法并行化改造的可行性进行验证。
其他文献
一棵苹果树,终于结果了。第一年,它结了10个苹果,9个被拿走,自己得到1个。对此,苹果树陵愤不平。于是自断经脉,拒绝成长。第二年,它结了5个苹果,4个被金走,自己得到1个。“哈哈,去年我
产后尿潴留是指产后超过8h不能自动排尿,为产后常见的并发症。如处理不及时,可增加尿道感染机会.影响子宫收缩,导致阴道出血量增多,严重者可致产后大出血。产后尿潴留不仅增加了产
目的:评价急诊中西医结合治疗肾绞痛的疗效。方法:总结应用输尿管镜技术急诊治疗肾绞痛忠者76例,术后加用中药尿石清颗粒治疗,观察治疗效果。结果;取石成功16例,气压弹道碎石成功48
风险投资事业在发达国家的迅猛发展,是与这些国家给予的政策扶持分不开的.从世界范围看,对风险投资的政策扶持主要有税收优惠、政府补助、政府担保、政府采购和管理政策等.我
近来,不可燃的固体电解质受到众多研究者的关注,主要原因是:(1)可以使用锂金属作为负极实现更高的能量密度;(2)固态电解质的高剪切模量可以抑制锂枝晶,解决安全问题。但是随
近年来,叙事研究作为一种研究方法在教育领域备受青睐,相关研究成果也层出不穷。先后就教育叙事研究的来源和现状﹑教育叙事研究的概念﹑以及教育叙事研究的研究成果等方面的成果
数字和图形的结合属于解决初中数学问题的一种常见的数学思想方法,在数学领域具有重要的作用。从初中数学教材的全部内容来看,很多知识是数字的有机结合。因此,数学教师需要
探讨了活性与分散染色织物在运输、储存、洗涤及穿着过程中可能出现的各种牢度问题,包括酚黄变、氮氧化物色变、耐氯牢度、日晒牢度、汗渍牢度、汗光牢度、湿摩擦牢度、热迁
上个世纪,很多化学品整理剂被应用于纺织品加工,以赋予其拒水性能。拒水剂配方产品有:金属盐类整理剂、脂肪酸盐/金属盐类整理剂、石蜡整理剂、吡啶基类整理剂、有机金属络合
自主水下航行器(AUV)是探索海洋的重要装备,其广泛应用在海洋科学研究、资源调查、情报监测、军事支援等领域。AUV执行任务主要依靠搭载相应功能的载荷,然而传统形式的AUV载