k均值聚类优化及其在基金投资中的应用

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:juhaixu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据的发展,数据分析、数据挖掘等创新技术已经在众多学科领域中得到了广泛运用。聚类分析是我们在实践中运用非常多的一种无监督数据挖掘类算法。而k均值聚类算法是日常中使用频率最多的聚类型算法,但是k均值聚类算法也同样有其缺点:首先算法很可能陷入局部最优,难以实现想要的聚类效果,初始聚类中心的选取肯定会影响到聚类的最终结果,不一样的初始中心肯定会是不一样的呈现,可能达不到理想的聚类结果;其次k值的选取很难确定,k均值聚类需要我们提前决定最终的聚类个数,聚类数值不同必然造成的聚类结果也会不同。本文对k均值聚类的研究探讨主要是两方面:一是如何确定聚类的数目;二是如何选择初始聚类中心。针对k值本文总结运用了手肘法、Mclust、PAM、Nbclust等四种方法来确定k值,综合四种方法结合实际问题情况分析结果,最终能很好地得出k值,消除了很多主观因素;针对初始聚类中心的选择,本文提出将k-means++算法中采用随机原则选第一个初始聚类中心这一步改为第一个初始聚类中心确定性选取为离全局中心最远的点。而剩下k-1个按距离越远越好的原则选取。即先得到所有数据点与最近聚类中心的距离D(x)(也就是算出每个点到已有中心点的距离,然后取其最小的距离作为每个点的D(x))。而数据点成为新的中心的可能性是D(x)2/∑D(x)2。结合轮盘法一步一步计算运行,最终得出全部初始聚类中心;之后的步骤与传统k均值聚类相同。这是一次实验步骤,当然为了多次试验取聚类效果最好的结果,针对第一个聚类中心,第一次试验取离全局中心最远的点,第二次实验取离全局中心第二远的点,以此类推。此后将新旧算法都应用于基金数据中,研究结果表明经过改进的新算法能够将基金更有效地进行分类,体现在轮廓系数更大,循环运算的次数更少,更加能够准确表达集合分类的效果。最后利用聚类所分成的类别将数据分成三类,并回测数据,根据结果得出了一些针对投资的参考结论。
其他文献
背景和目的:表皮生长因子受体(epidermal growth factor receptor,EGFR)信号通路是目前针对人肺腺癌靶向治疗一个重要的信号通路。EGFR-酪氨酸激酶抑制剂(tyrosine kinase inhibitors,TKI)被广泛用于治疗EGFR突变(主要是19del和L858R突变)的肺腺癌患者中,且其治疗效果优于含铂类的化疗。但经过中位数约10个月的无进展生存期(pr
学位
目的:于体外建立胰岛细胞的缺氧/复氧模型,模拟胰岛移植缺血再灌注损伤,探究经缺氧和复氧损伤后,甲基丁香酚对胰岛细胞生存和功能的保护作用及其可能机制。方法:选取6-8w雄性BALB/C小鼠分离纯化胰岛,将其分为4个组:(1)正常组(Normal):予以普通培养,不予任何处理;(2)缺氧/复氧组(Hypoxia/reoxygenation,H/R):经过缺氧/复氧处理;(3)二甲基亚砜(Dimethy
学位
[目的]1.通过质性研究了解乳腺癌幸存者的体力活动行为和心理体验,为制订行为干预措施提供依据。2.跨文化调适BCTTv1,开发适合临床人员使用的行为干预工具。3.基于BCW针对乳腺癌幸存者编制行为改变干预方案。[方法]1.半结构式访谈法用于武汉市某三级甲等医院乳腺外科或门诊就诊的12名乳腺癌幸存者的数据收集。Colaizzi分析法用于访谈数据分析。2.使用Brislin翻译模型对BCTTv1进行直
学位
背景和目的:胃癌是目前世界范围内最常见的、致死率最高的恶性肿瘤之一。而且我国是全球胃癌的高发地区之一,每年新增病例近68万。同时,由于多数胃癌患者早期无明显症状或体征,确诊时已处于中晚期,已失去手术治疗机会,治疗难度大,复发率高,预后极为有限。MET突变作为近年来肿瘤分子靶向治疗的热门靶点之一,针对MET的靶向治疗的临床研究取得了不错的成绩。但是,胃癌的高度异质性限制其靶向治疗研究的进展。胃癌的发
学位
目的1.通过体外实验探究NLRP3抑制剂MCC950在IL-1β刺激的小鼠软骨细胞中对NLRP3蛋白的抑制作用以及MC9950的抗炎和抑制分解代谢的作用,同时探讨MCC950对于自噬和氧化应激的调控作用。2.探究MCC950发挥作用所调控的炎症、分解代谢、自噬、氧化应激相关通路。3.通过体内实验探讨MCC950对小鼠OA软骨退变的保护性作用。方法1.使用生物信息学方法分析MCC950可能作用的基因
学位
目的探究跑台运动对创伤性骨关节炎(post-traumatic osteoarthritis,PTOA)大鼠肌肉-骨骼单元(肌肉、软骨和软骨下骨)的影响,以及研究运动诱导肌肉因子鸢尾素(Irisin)的表达与关节软骨损伤程度的相关性。方法1.选取18只250±10g的8周龄雄性Sprague Dawley(SD)大鼠,长期饲养在SPF级环境内。将大鼠随机分为2组,分别为假手术组(n=6)(Sham
学位
目的:本研究旨在探讨USP11在肝癌化疗耐药中的作用及其机制,为今后开发新的肝癌治疗靶点提供理论依据。方法:收集来自华中科技大学附属同济医院普外科的肝癌组织和癌旁正常组织样本,运用Western blot和免疫组织化学染色检测其中的USP11水平;采用慢病毒载体构建了敲减USP11的肝细胞癌细胞系,并以CCK8实验检测敲减USP11后肿瘤细胞对于顺铂敏感性的改变;免疫共沉淀实验检测USP11与PA
学位
目的横纹肌肉瘤(rhabdomyosarcoma,RMS)是常见于儿童的一种软组织恶性肿瘤,起源于间叶组织。以PAX3/7-FOXO1等融合蛋白为特征,将RMS分为融合基因阳性(fusion-positive,FPRMS)和融合基因阴性(fusion-negative,FNRMS)横纹肌肉瘤,而融合基因阳性与预后差有关。尽管FNRMS的预后良好,但对于患病的儿童及青少年来说,传统的化疗、放疗对患儿
学位
等离子体是由大量带电粒子组成的非凝聚系统,当等离子体的运动和电场的运动紧密耦合时,存在非常丰富的集合效应和集体运动模式,我们可以用VlasovPoisson方程来描述等离子体的演化规律。本篇文章主要研究:在二维情况下,两组分的Vlasov-Poisson系统的无限质量问题。首先,我们介绍经典的Vlasov-Poisson系统的研究背景以及无限质量问题的研究现状。其次,我们给出本篇论文的核心结论和后
学位
目的:利用高分子聚合物负载化疗药物构建药物递送系统可实现肿瘤局部化疗。本研究拟通过静电纺丝制备负载化疗药物的纳米缓释纤维药膜并探究其在体内外的抗肿瘤效果。方法:静电纺丝技术制备共载顺铂和吉西他滨的聚乳酸纤维药膜;应用扫描电镜观察纤维膜表征;采用高效液相色谱法测定载药纤维体外释放行为。以人前列腺癌细胞DU145为研究对象,以流式细胞术及Western Blot实验检测DU145细胞接受不同处理后细胞
学位