聚类分析及聚类结果评估算法研究

被引量 : 0次 | 上传用户:HZ8081
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅速发展,需要分析和管理的数据迅速增多,这种趋势已经渗透到数据挖掘领域中。数据挖掘就是用来从大量的、不完全的、有噪声的、模糊的、随机数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识。聚类分析是数据挖掘技术中重要的组成部分,从技术角度讲,它的主要目的是将数据空间中的数据点划分到若干个类中。其中,将距离相近的数据点划分到相同的类中,而将距离较远的数据点划分到不同的类中。 目前,已经提出了很多的聚类算法,它们基本上可以分为以下几种方法:划分方法、层次方法、混合方法和基于密度等方法,这些方法各有优缺点。每种算法只有聚类与之相适合的数据集时才能形成比较理想的聚类结果,而且聚类结果的质量很难定量评估。虽然已经提出一些聚类质量评估的方法,但是这些评估方法却不能与聚类算法有机结合,并指导聚类算法进行调整和更新以产生更好的聚类结果。在聚类分析领域中另一个长期困扰研究者的典型问题就是聚类参数的设置问题。只有合理的设置聚类参数才能聚类出高质量的聚类结果。然而被聚类的数据集分布情况在聚类前往往是未知的,所以难以设置合理的聚类参数。而设置不合理的聚类参数又使得聚类结果质量变低。所以聚类参数设置问题应该首先被解决好。 本文提出一种高效的聚类模块和一种新颖的聚类质量评估模块。其中聚类模块包含两个取值范围有限的整形参数,通过遍历这两个聚类参数的全部取值,可以对数据集进行多遍聚类,然后利用评估模块对全部聚类结果进行评估,找到聚类质量最高的一个作为聚类算法的最终输出,这就是SECDU算法。该算虽然可以找到最优聚类,但是它的效率很低。通过爬山算法对SECDU进行优化,可以得到SECDUF算法。无论是SECDU算法还是SECDUF算法,它们对具有不同分布特性的数据集都有非常好的适应性,能够输出理想的聚类结果。而且SECDUF算法还具有聚类速度快、聚类参数自行调整,无需人工干预等优点。
其他文献
随着城市智能交通的快速发展、打车软件和共享单车的盛行,交通数据呈现出指数式增长。对交通数据进行合理的分析可以预测出人们的出行习惯和热门交通路线,为城市交通的管理提
目的评价高血压社区规范化管理对改善患者高血压知识知晓率、治疗依从率和血压控制率的近期效果。方法选择广陈社区11个行政村5 262例高血压患者作为研究对象,随机分为规范化
《西班牙组曲》是19世纪西班牙作曲家阿尔贝尼兹的代表作之一,作为19世纪中后期西班牙钢琴民族乐派的代表人物,伊萨克·阿尔贝尼兹成功地创建了自己的写作风格,把西班牙浓郁的故
法的可诉性是法治的基本特征。宏观调控行为的法治化是建立法治国家的题中之义。宏观调控行为与行政行为、国家行为、决策行为等既有区别又有联系。宏观调控行为的可诉性具有
“任务驱动”是一种建立在建构主义教学理论基础上的教学模式。本文在建构主义学习理论和任务驱动教学思想的指导下,结合地理活动课的特点,探索在地理活动课中采用任务驱动的
目的了解铁路民警艾滋病知识、职业暴露防护知识及相关知识需求现状,为有针对性地开展培训工作提供依据。方法采取分层随机抽样的方法,随机抽取兰州地区350名铁路公安干警,采
<正>Michael Jackson终年50岁流行歌王迈克尔·杰克逊2009年6月25日突然去世的消息几乎瞬间传遍全球。从纽约到东京,从里约热内卢与到悉尼,全球歌迷同哀这位词曲唱跳俱佳的天
在我国公务员学习能力建设过程中,"学习型机关"理念渐成共识,基本建立了相应的培训学习机制且公务员具备较高的学习能力。但在一定程度上,也存在学习意识不强、学习方式单一
采用不同环氧值的环氧树脂扩链剂对回收PET在密炼机中进行反应扩链,利用DSC、转矩流变仪和特性粘度测试对其扩链效果进行了分析和研究。结果表明,环氧树脂改性PET的DSC曲线无明
阐述了奶牛饮水理论的基本知识:水在奶牛体内的代谢特征,奶牛对水的数量和质量的需求,奶牛饮水量的预测,奶牛的饮水习惯和关于水质的内容。总结了大量的奶牛饲养当中有关饮水