【摘 要】
:
由于数据产生的多源性,致使当前数据分析中的很多数据都是混合模型数据,利用混合模型对其进行分析,通常比聚类分析中的传统方法产生结果更加精确,其中一个关键因素是混合模型
论文部分内容阅读
由于数据产生的多源性,致使当前数据分析中的很多数据都是混合模型数据,利用混合模型对其进行分析,通常比聚类分析中的传统方法产生结果更加精确,其中一个关键因素是混合模型中子总体的个数,它决定了数据分析的最终结果。期望最大化(EM)算法常用在混合模型的参数估计中,是一种从不完全数据或者有缺失值数据中求解参数极大似然估计的迭代算法。在此基础上,学者们往往采用AIC和BIC的方法来确定子总体的个数,而这两种方法在实际应用中的效果并不稳定,甚至可能会产生错误的结果。针对此问题,本文对混合模型中子总体个数确定的问题进行研究,主要工作如下:(1)针对传统子总体个数的判断准则AIC和BIC具有不稳定性的缺点,基于简单的一维混合模型提出了一种改进方法,新方法利用极大似然的思想,借助于EM算法,通过构建子总体个数和其对应的对数似然函数值的碎石图来确定混合模型中的子总体个数。实验表明新方法增强了在判定子总体个数上的准确性,减少误判率,而且过程也更加直观。(2)通常实际生活中有很多拥有复杂关系(回归、分类等)的高维混合数据,不同子总体的统计模型或参数可能不同,其残差也有可能来自不同的分布类型,基于多维混合回归模型,提出了利用对数似然函数的碎石图来确定混合回归模型中子总体个数的新方法。实验证实在条件不理想的状态下,本文新方法可以得到更准确的结果。(3)由于现有文献中关于混合模型的实际应用较少,本文将新方法在健康保险数据的参数估计中进行了实际应用。将投保人细分为两种类型,并对不同人群制定了科学的保险定价策略。
其他文献
近年来,随着我国科技水平高速发展,传感器的运用也更加广泛,振动传感信号的检测技术也越发的先进。对振动信号进行准确的采集和检测,有利于用户对振动源的信号做出正确的判断
无线通信技术正在以迅猛的速度向前发展,尤其是第五代移动通信技术的普及和推广,让我们的生产生活更加智能化、便利化。然而智能终端数量的极速增长将导致移动数据业务量的激增,给通信系统的数据传输速率、系统容量、网络时延、频谱利用率等关键指标带来不利影响。终端直通技术(Device-to-Device,D2D)是5G通信的关键技术之一,其通过用户进行近距离数据传输来提高端到端的数据传输速率,减轻基站的负担,
近年来,蛋鸡养殖业经济效益普遍低下,其主要原因是蛋鸡生产成本提高,特别是饲料成本、防疫成本、人工成本逐渐上涨,而鸡蛋价格又持续走低,波动不断,这直接导致养殖户养殖蛋鸡
兴奋与抑制平衡是大脑维持正常神经电活动和实现高级认知功能的基础,一些神经精神疾病,如癫痫、帕金森和抑郁症等的发生被认为和大脑兴奋与抑制失衡有关,因此研究神经元兴奋与抑制的平衡对于理解大脑信息加工具有重要的理论价值。谷氨酸是哺乳动物中枢神经系统中主要的兴奋性递质,谷氨酸受体依赖的细胞广泛分布在海马和视觉系统中。红藻氨酸是谷氨酸类似物,在海马中注射红藻氨酸会引起海马结构和功能的改变,甚至会引起癫痫发作
冷原子系统是指利用激光冷却等技术将原子冷却到接近绝对零度所形式的稀疏气团,随着实验技术的进步,冷原子物理逐渐成为研究的热点。原子在极低温度下将会展现出很多新奇有趣
本学位论文以L-谷氨酸(L-glutamic acid,简称LGA)为研究对象,研究L-谷氨酸在结晶过程的变化。对LGA晶体进行动力学建模,设计状态估计以及对结晶过程调控优化展开研究。首先,
随着工业经济的发展,人们越来越重视可再生能源的开发运用,因其具有清洁可循环再生等性能被广泛的研究,以期作为化石燃料的替代品。其中,氢能由于其高效和环保受到最多的关注
临南洼陷构造复杂,油气分布范围广,油气藏成因复杂,随着勘探程度增加油气藏的隐蔽性变强。沙三段是临南洼陷主要的油气来源,长期以来前人对该层源岩评价较为粗糙,对烃源岩特
我国的影视传媒行业在国家的政策支持下,营造出了非常适合成长的土壤,快速的建立起了完备的影视产业链。在在这个高速发展的中国经济时代条件下的中国文化传媒行业,正呈现百花齐放、多姿多彩的面貌。近年来,国内影视传媒行业都走上了精品化的道路,大大提高了国内影视作品的质量。与此同时资本市场上的优质影视企业利用自身的优势,整合行业内优质资源进行合并、收购。影视传媒企业是非常典型的轻资产模式企业,轻资产、重创意使
疏水缔合聚合物其应用性能不仅与其复杂的分子结构参数(疏水单体含量、分布、分子量、水解度等)有关,还与缔合作用形成的多分子聚集体流体力学尺寸与油藏孔喉的匹配性密切相