聚类质量改进方法的研究

来源 :大连理工大学 | 被引量 : 13次 | 上传用户:YINGWU2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘的一项重要功能,是对数据进行合理归类的一种重要手段。聚类是根据数据的某些属性,按照某种相似度量将其划分为若干类,使得类内数据对象的相似性尽量大,类间数据对象的相似性尽量小,目的是寻找隐藏在数据中的信息。近年来,聚类分析已经成为数据挖掘领域中十分活跃的研究课题。由于聚类是与应用紧密联系的技术,因此基于不同的应用目的,研究者们运用不同的模型定义聚类问题。对同一模型描述的聚类问题,可以用不同的方法对其求解,因此产生了一系列聚类算法。在实际应用中,这些算法经常受到初始解敏感、参数约束等问题的影响而无法保障聚类结果的质量。本文以提高聚类质量为目的,尝试着从描述聚类问题的模型及其求解方法的角度出发,分析影响聚类算法质量的原因。通过引入新的方法和技术来设计能克服这些影响因素的新的聚类算法,达到提高聚类质量的目的。本文的研究具有一定的理论意义和实际应用价值。本文尝试用如下几种方法提高聚类质量:(1)以空间平滑技术降低局部极小值对启发式聚类算法的影响,提高其聚类质量。对以组合优化模型描述的聚类问题,采用启发式搜索策略求解该模型,产生了启发式聚类算法。启发式聚类算法具有收敛速度快等优点,但是初始解敏感和“早熟”等问题使得启发式聚类算法无法保证聚类质量。通过对启发式聚类算法的求解方式进行分析后发现,影响启发式聚类算法质量的原因是分布在搜索空间中的局部极小值“陷阱”。为了降低搜索空间中局部极小值对启发式聚类算法的影响,我们在启发式聚类算法的设计中引入了多空间策略。在保持解结构不变的前提下,给出了3种平滑算子以完成“填平”搜索空间中局部极小值“陷阱”的任务。由平滑算子重构后的搜索空间中包含的局部极小值个数越少,该搜索空间就越平滑。为了控制搜索空间的平滑程度,我们引入了平滑因子参数来控制平滑算子。以不同的平滑因子调用平滑算子,将产生一系列平滑程度不同的重构搜索空间。在任意搜索空间中,当前层搜索空间中的搜索总是以前一层搜索空间的聚类结果为基础来完成的。多空间平滑技术减少了搜索空间中的局部极小值的个数,降低了启发式聚类算法受其影响的程度,增大了获得高质量聚类结果的概率。由于算法需要多次重构搜索空间,因此该算法的时间消耗较大。(2)以近似骨架捕获数据集的共有信息,并利用共有信息设计启发式聚类算法提高聚类质量。启发式聚类算法采用局部搜索策略求解以组合优化模型描述的聚类问题,获得使得目标函数取局部极小值的局部最优聚类结果。为了提高启发式聚类算法的质量,研究者们要么以随机重启技术多次执行聚类算法并保留最好的聚类结果,要么从多个局部最优聚类结果中发现最一致的聚类结果。前一种方法虽然可以获得较好的聚类结果,却忽略了多个局部最优聚类结果之间的关系,而后者从多个局部最优聚类结果中发现最一致信息,却割裂了已有聚类结果与原始数据集之间的联系。局部最优聚类结果是启发式聚类算法的收敛结果,反映了数据集的侧面特征。多个局部最优聚类结果之间共有信息反映了数据集的共同特征,因此共有信息对捕获数据集的真实聚类结果有着重要的意义。本文引入近似骨架来捕获多个局部最优聚类结果中的共有信息,并利用近似骨架设计启发式聚类算法,主要完成:①定义了启发式聚类算法的骨架和近似骨架;②研究了影响近似骨架质量的因素,并给出发现近似骨架的快速算法;③在近似骨架的基础上给出了BK-means:基于骨架初始解的聚类算法和近似骨架导向的规约聚类算法。由于算法需要预先产生多个局部最优聚类结果,因此时间消耗较大。(3)在核密度估计和空间统计理论的基础上,设计局部显著单元结构捕获空间数据分布以提高子空间聚类算法的质量。对以空间密度估计模型描述的高维子空间聚类问题,等宽或随机宽度的超方体结构是用来捕获空间密度分布的重要结构。核密度估计是空间密度估计的重要方法,但是能反映数据分布的核宽度却很难获得。大部分子空间聚类算法先用等宽或随机宽度来限制核宽度,然后用超方体结构的密度来模拟核密度估计值。等宽或随机宽度的限制虽然解决了核宽度确定问题,但是不能反映空间中数据的真实分布,从而导致以等宽或随机宽度为基础的子空间聚类算法无法保证聚类质量。本文在局部核密度估计方法Rodeo和空间统计理论的基础上,给出了一种局部显著单元(Local Significant Unit, LSU)结构来捕获局部数据分布。局部显著单元是一个由密集超方体及其对应的属性子集所组成的二元组,其中属性子集和超方体的宽度由局部核密度方法Rodeo确定,而超方体的密集程度则由空间统计测试完成。以贪心策略为基础的算法GA_LSU (Greedy Algorithm for LSU)快速地发现能覆盖数据分布的局部显著单元。对具有相同属性子集的局部显著单元二元组,执行Single-linkage算法合并密集超方体并形成聚类结果。
其他文献
就业是国民生存的根本,并且对维护社会稳定、加速经济增长有着重要的意义。"十二五"甚至未来更长一段时期,中国劳动力市场发展趋势将发生许多变化。经济发展,理论研宄空间扩
在过去的几年里,数据流广泛出现在传感器网络、金融证券管理、网络监控、Web日志以及通信数据在线分析等新型应用领域中。由于数据流中数据的规模一般都十分庞大、且增长迅速,
本论文采用问卷调查法、数理统计法等方法对郑州地区本科院校女生休闲体育行为特征进行了调查与研究。其目的就是要分析和总结郑州地区本科院校女生参与休闲体育的行为特征和
在当今信息化社会中,视频监控、视频检索、人机交互以及视频编解码等各种与视频相关的应用不断涌现出来,与这些应用相随的是海量的视频数据,计算机视觉研究的发展则为这些海
<正> 画外音: 1900年,由于一种结核菌的肆虐,在英国,有53000多人死亡,第一次世界大战期间,大约有数百万的士兵不是死于炮火和枪弹,而是因为感染_了一种叫“伤寒“的细菌而不
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
会议
目的:探讨脑梗死患者颈动脉超声与脑血管造影相关性,了解颈动脉超声在脑梗死疾病中的应用价值。方法:对60例脑梗死患者颈动脉超声检查结果与脑血管造影结果进行比较分析。结果:
目的:探讨普贝生在促宫颈成熟和引产中的效果。方法:选取80例进行引产的孕妇为研究对象,将其随机分为A组(普贝生组)40例和B组(缩宫素组)40例,后将两组产妇用药前后的Bishop评分、临
目的:评价角膜缘干细胞移植对治疗复发性翼状胬肉的疗效。方法:对33例(34眼)施行角膜缘干细胞移植治疗,术后随访1年。结果:34眼2眼复发,复发率为5.88%。结论:角膜缘干细胞移植术治疗复