【摘 要】
:
大数据时代,数据收集手段不断革新,数据存储能力不断提升,在气象学、生物化学、神经影像学等领域中涌现出大量以曲线形式存在的函数型数据.函数型数据是时间、空间等维度上的连续函数,这给传统的统计分析和数值计算带来了巨大的挑战.但是,其具有的无穷维数据特征能够蕴含更加丰富的数据信息,为发展新的统计理论以及拓宽实际应用领域提供了良好的机遇.因此,函数型数据分析已经成为当前统计学研究领域的热点和前沿问题之一.
论文部分内容阅读
大数据时代,数据收集手段不断革新,数据存储能力不断提升,在气象学、生物化学、神经影像学等领域中涌现出大量以曲线形式存在的函数型数据.函数型数据是时间、空间等维度上的连续函数,这给传统的统计分析和数值计算带来了巨大的挑战.但是,其具有的无穷维数据特征能够蕴含更加丰富的数据信息,为发展新的统计理论以及拓宽实际应用领域提供了良好的机遇.因此,函数型数据分析已经成为当前统计学研究领域的热点和前沿问题之一.另一方面,在实际问题中,由于测量仪器的灵敏度、测量人员的失误、数据本身无法观测等因素,有时候数据中会存在测量误差或者异常值等复杂情形,使得我们很难直接得到数据的真实值.忽略这些复杂情形,往往会导致建模的不准确性,使得参数估计具有较大的偏差.鉴于以上分析,本论文主要围绕函数型数据下两类复杂数据的统计建模及其应用问题进行研究,主要工作如下:第二章研究带有扭曲测量误差的部分函数型线性模型的推断问题.基于非参数核估计以及函数型主成分分析,我们使用纠正的剖面最小二乘估计,得到了模型中参数向量和参数函数的估计量.在一些正则假设下,证明了所提估计量的渐近性质.为了得到参数的置信域,首先,基于经验似然方法构造了非函数型线性部分分量的置信区间,并在一些正则假设下,给出了经验对数似然比函数的渐近性;同时,构造了函数型线性部分斜率函数以函数型主成分分析估计量为中心的置信带.通过模拟研究验证了所提方法的有效性,并将所提方法应用到中国房地产实际数据中.第三章研究单指标部分函数型线性分位数回归模型的推断问题.基于B-样条基函数,我们提出了一个估计程序,以此得到模型中未知量的估计量.在一些正则假设下,证明了所提估计量的渐近性质.同时,通过模拟研究和肉样本数据的实际数据分析验证所提方法的有效性.第四章研究函数型单指标复合分位数回归的推断问题.基于B-样条基函数,我们给出了一个估计程序,以此得到模型中未知连接函数和未知指标函数的估计量.在不同的误差分布下,通过模拟研究表明,复合分位数回归具有更强的鲁棒性.最后,我们将所提方法应用于汽油NIR光谱数据中.综上,本论文致力于对函数型数据下两类复杂数据的理论和应用的深入研究.所提结果进一步丰富了函数型数据的理论和应用,这些研究成果不仅具有重要的理论价值,也具有广泛的实际应用价值.
其他文献
氧还原反应(ORR)是极为重要的一类电化学反应,是许多新型能源储存与转换器件的重要化学过程,也是一种绿色环保地制备双氧水的方式。ORR可分为二电子和四电子途径,反应过程十分复杂,因此控制ORR过程使其按照预期的反应路径进行、减少副反应是重要的研究方向,而新型高效的复合催化剂的设计、结构调控及机理研究成为研究热点之一。纳米复合材料具有独特的物化性质,在电催化材料领域具有极大的潜力。本文结合不同维度纳
现有文献仅以线路传输功率限制或“热电耦合”约束为单一弃风原因研究电热联合系统的消纳弃风策略,因而仅适用于消纳单种原因产生的弃风。针对这一问题,同时考虑两种弃风原因,研究进一步提高风电消纳的调度策略,提出了一种计及电网线路重构的直流潮流改进算法。在此基础上构建了考虑优化机组组合与线路重构的电热联合系统源网协同调度模型。通过实例仿真,验证了该模型能够根据弃风量大小和弃风原因的不同,通过机组出力优化、机
基于CMA-MESO模式水平3 km分辨率3 h循环的快速更新同化预报系统,本文建立逐小时的分析预报循环系统,并且通过采用5种尺度叠加的高斯相关模型和引入各向异性的水平相关尺度方案来改进背景误差水平相关结构,同时考察引入全球大尺度信息方案对逐小时循环的分析和预报影响。通过对2020年7月19日华东强对流天气过程的数值模拟表明:(1)逐小时循环吸收了更多的高频观测资料和循环中采用更临近的1 h预报场
金属材料的应用十分广泛,其质量对实际工程应用具有重大影响。金相检验是通过检测钢铁材料劣化情况来评估钢材质量的重要手段,在对金相显微组织进行分析的过程中,准确的评定钢材金相晶粒度等级是最为关键的任务。传统采用人工对金相的晶粒度等级进行评定的方法存在效率低、易受人员经验影响及结果不具有重复性等缺点。基于数字图像处理的晶界识别方法只能识别出较为清晰金相图像中的简单晶界,对于存在干扰的复杂晶界应用效果较差
放电的多样性和放电现象的复杂性以及随着科学技术的进步不断出现新的放电形式,导致了对气体放电的物理过程分析变得越来越复杂。为了对气体放电进行深入的研究,多采用实验方法展开,但是仅靠实验手段仍无法明晰气体放电的微观机制以及获取全部关键参数。基于数值仿真的气体放电过程研究,可更深入地了解气体放电过程的微观规律,获得实验无法测得的关键参数,重现气体放电的演变过程,日益成为推动气体放电理论发展的一种重要方法
随着经济的迅速发展和人们生活水平的不断提升,旅游已经成为休闲娱乐的重要方式。针对不同旅游场景,用户对旅游推荐系统的需求具有多样性,例如,一些用户希望在线旅游平台提供个性化的旅游套餐服务;一些用户希望推荐的旅游套餐具有可解释性,并同时考虑偏好的动态性;一些用户在陌生的城市旅游,需要制定同时满足时空约束和个性化需求的旅游行程;结伴旅游的用户希望旅游行程满足群组中大部分用户的需求。在以上旅游场景中包含了
近年来,支持向量机已经成为解决模式分类与回归问题的一种强有力的方法。经典的“最大间隔”支持向量机通过最大化两个不相交的半平面之间的距离来减低泛化误差。基于支持向量机理论,双平面支持向量机作为一种新的机器学习方法得到了广泛的研究。与经典支持向量机中的单个分类超平面不同,双平面支持向量机旨在生成两个非平行的超平面,其中,每一个超平面更接近于两类样本中的一类,并且尽可能地远离另一类。在求解过程中,双平面
在大数据时代,海量数据的涌现促进计算机视觉、机器学习和模式识别的蓬勃发展,但也带来了处理高维数据问题的挑战。作为处理高维数据这一问题的典型方法之一,子空间聚类受到越来越多的关注。子空间聚类旨在发现高维数据中的低维结构。一般来说,原始数据通常会受到污染,数据一般具有非线性的结构,并且数据的样本量也非常庞大。若不能针对上述存在的现实问题去建立子空间聚类模型,将不利于随后的聚类任务。本文围绕原始数据中存
目的 检索、筛选、总结并分析系统性红斑狼疮(systemic lupus erythematosus,SLE)患者生育期保健的相关证据并形成最佳证据总结,为SLE患者生育期的护理及管理提供循证依据。方法 系统检索美国指南网、英国国家卫生和临床优化研究所网站、UpToDate、PubMed、Web of Science、Cochrane Library、BMJ Best Practice、澳大利亚乔