【摘 要】
:
K-平均问题是经典的NP-难问题,NP-难问题无法在多项式时间内找到精确解除非P=NP.k-平均问题在数据挖掘、机器学习等领域有广泛的应用.在大数据时代,与大数据相关的聚类问题也成为当前研究的热点.我们通常采用启发式算法或近似算法求解该类问题.在该问题中,给定由n个d维空间中观测点组成的数据集χ和整数k(k≤n),目标是将χ划分成k个子集,使得所有子集的方差(或点到其聚类中心的距离平方)和最小.在
论文部分内容阅读
K-平均问题是经典的NP-难问题,NP-难问题无法在多项式时间内找到精确解除非P=NP.k-平均问题在数据挖掘、机器学习等领域有广泛的应用.在大数据时代,与大数据相关的聚类问题也成为当前研究的热点.我们通常采用启发式算法或近似算法求解该类问题.在该问题中,给定由n个d维空间中观测点组成的数据集χ和整数k(k≤n),目标是将χ划分成k个子集,使得所有子集的方差(或点到其聚类中心的距离平方)和最小.在χ中观测点有不同的重要程度,为了将重要的观测点更好聚类,学者们提出了带惩罚的k-平均问题.在该问题中,越重要的观测点给定惩罚费用越大.带惩罚的k-平均问题是k-平均问题的推广.任意一个观测点x∈χ尤的惩罚费用为p(x).每个观测点必须聚类到某个中心点或者被惩罚.在本文中,我们研究了带惩罚的kk-平均问题,给出了并行初始化算法,每次迭代采样点的数量是随机的,在给定迭代次数的情形下,给出了算法的近似比分析.
其他文献
住房不仅是人们生活中的一种重要资源,也是身份地位、阶层分化的重要象征。在我国房地产业快速发展的过程中,许多城市房价居高不下并持续快速上涨,这使得有房者的房产价值水
设[n]={1,2,…,n}并赋予自然数的大小序.Pn表示[n]上的部分变换半群,Jn表示[n]上的全变换半群,Jn表示[n]上的对称逆半群,Sn表示[n]上的对称群.SJn=JnSn是[n]上的部分一一奇
栗木矿区是典型的花岗岩型钨锡铌钽多金属矿床,该矿区侵入岩主要是栗木复式花岗岩体,在大地构造上位于南岭EW向和湘南SN向构造南端的截接部位海洋山褶断带恭城复向斜北部扬起端,属南岭锡矿带西段中的灌阳-贺县成矿区。本文重点通过烃类气体地球化学特征结合成矿地质特征、岩石地球化学特征和流体包裹体特征等研究内容来探讨栗木钨锡铌钽多金属矿床的成矿机制以及岩浆演化过程中与钨锡铌钽多金属成矿作用的关系。通过研究得出
线性回归模型是数理统计学中发展比较早的一个分支,是一类重要的统计模型,应用遍及经济、工业、生物、农业、医药和社会科学等领域。关于线性回归模型的参数估计问题的研究可
本文以广西滨海一级公路犀大段为工程背景,由于地质形成的特殊性及地形的限制,本路段拟采用低路堤设计,其下经常存在软土层,该软土特点有:(1)高水位,地面以下30cm可到常水位,
自我妨碍是个体在面临任务压力时为了避免受他人不良评价而采取的自我保护策略,这种策略将任务失败的归因外化,但也会增加失败的几率。本研究首先用量表调查了中职生自我妨碍
乡村振兴和农业农村优先发展背景下,农户生产经营规模扩大导致其融资需求增大,但金融机构可供融出的涉农金额有限,农户生产性融资满足率较低进而影响生产发展的问题愈发突出
随着化石燃料的日益短缺以及人类生存环境的恶化,新能源日益成为人们关注的重点。生物质能源是一种能够解决这种困境的新型能源,它具有总量巨大和可再生等优点。生物质气化是
多取代吡啶环结构广泛存在于天然产物和药物分子中,因此,如何高效实现吡啶环上的多官能化具有重要的研究意义。而吡啶炔作为一种具有高反应活性的化合物,可以便捷地在环上实
由于隧道内空间狭小,热拌沥青混合料施工时温度较高,排放出大量的废气、烟尘,不仅影响周围的环境和施工人员的身体健康,而且对施工机械的性能和施工质量也造成严重影响;沥青