复杂数据特征选择与回归预测的研究和应用

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:Pleasehelp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,数据复杂度飞速增长。复杂数据不仅意味着数据量增大,也意味着特征数量变多、特征和目标的属性变得复杂。如何从复杂数据中提取有效的信息,这对特征选择和回归预测的研究提出了巨大挑战。传统的特征选择方法在处理有监督的分类问题上很成熟,但是对于无监督或者回归问题还有很大的研究空间。另一方面,在回归预测算法中,集成方法和划分“场景”建模已经得到广泛的应用。本文的工作集中在特征选择以及回归算法的研究和应用。(1)本文首先提出了一种无监督特征选择方法(UFSSR)。UFSSR使用稀疏表示重构了数据矩阵,并在此基础上提出了一个新的特征评价函数。经典数据集上的实验表明,UFSSR能更好地选出重要特征。(2)特征选择和回归预测可以看作处理回归问题的两个重要步骤。在回归问题的特征选择上,本文提出了一种改进的基于随机森林的特征选择方法(RGRF)。RGRF使用岭回归对随机森林的特征排序进行“召回”改进。在回归预测算法上,本文基于Stacking框架设计了一种集成的回归预测算法,将随机森林、GAM拟合、GBDT三类算法的预测结果融合在一起。随后,本文结合一个具体的通信指标预测问题,验证RGRF和集成回归预测算法的效果。实验表明,本文提出来的RGRF方法和集成预测方法相对于传统的特征选择、回归预测方法能够有效提升回归预测的精度。通信指标的预测结果:R-Square为0.85,S.D(0.2)为55.60%。(3)为了进一步提升通信指标回归预测精度,本文将通信设备节点本身的配置工参考虑进去,搭建层次场景划分模型,在每个子场景下对通信指标分别进行回归预测。实验表明,经过场景划分之后,总体的预测精度有了明显的提升。最终,通信指标的预测精度达到:R-Square为0.92,S.D(0.2)为67.86%。
其他文献
习近平总书记在庆祝中国共产党成立100周年大会上的重要讲话,明确指出伟大建党精神是中国共产党的精神之源,庄严宣告中华民族伟大复兴是中国共产党奋斗的主题,鲜明提出九个"
随着无线通信系统的快速发展,基于传统材料和工艺设计的非线性器件面临着越来越多的问题。石墨烯作为一种新型二维碳基材料,凭借独特的非线性电磁特性及动态可调的特点在高频电子器件领域展现了广阔的应用前景。因此,对石墨烯非线性电磁特性分析与应用研究具有重要的研究意义。通过对国内外石墨烯非线性器件调研及石墨烯非线性理论的分析,对石墨烯非线性器件进行不同电路结构的研究与设计工作,探究了回收网络、电偏置及气体调控
猪博卡病毒(porcine bocavirus,PBoV)属于细小病毒科(Family)博卡病毒属(Genus)的新成员,目前其在猪群疾病中的作用机制还未见明确,主要是由于该病毒仍无法获得纯培养和动物回归实验。猪博卡病毒存在多种亚型:PBoV1、PBoV2、PBoV3、PBoV4和PBoV5,目前多国见有猪群感染博卡病毒的研究报道,有关福建样本的猪博卡病毒基因研究较少。为研究猪博卡病毒生物学信息,
胆囊癌是一种起源于胆囊上皮的恶性肿瘤。在消化系统恶性肿瘤中,胆囊癌发病率虽然不高,但具有恶性程度高、进展迅速的特点。胆囊癌常继发于慢性胆囊炎或胆囊结石,早期症状往往不明显,易被原发病掩盖,当出现明显临床症状时,往往已进展至中、晚期,大部分患者此时已失去了行根治性手术的机会。胆囊癌对放、化疗多不敏感。对于无法行根治性手术的胆囊癌患者,目前的治疗手段多采用姑息性手术治疗,其目的仅在于减轻或解除患者黄疸
小麦面筋蛋白的组分与含量共同决定小麦面粉的加工品质,而小麦醇溶蛋白是面筋蛋白的重要成分之一,占其总量的50%左右。醇溶蛋白主要决定小麦面筋的粘性和延展性,在醇溶蛋白中,γ-醇溶蛋白与小麦的品质具有显著的相关性。本研究以优质强筋小麦品种郑麦379为材料,针对γ-醇溶蛋白家族基因进行克隆,并进行乳糜泻基因抗原位点的预测,利用转录组技术,计算克隆出的基因在120份自然群体材料中的表达水平,结合其品质指标
生物素又名维生素H是许多羧化酶的一个重要的辅酶因子,如乙酰辅酶A羧化酶和丙酮酸羧化酶等。bioC基因编码的丙二酰载体蛋白氧甲基转移酶能够参与合成庚二酰辅酶A,而庚二酰辅酶A在7-酮基-8-氨基壬酸合成酶(KAPA合成酶)的催化下开始进入生物素的生物合成途径。为了探究生物素是否参与黄曲霉的生长发育以及次级代谢,本文对黄曲霉中生物素生物合成相关基因bioC功能进行初步的功能研究。bioC基因编码一个丙
目的应用磁共振三维同步非增强血管造影及斑块内出血序列(3D-SNAP)对脑梗塞患者颅内责任血管进行斑块负荷分析,并探讨大脑中动脉(MCA)供血区脑梗塞的直径与斑块负荷的关系,能进一步完善斑块的评价。利用3D-SNAP序列与3DTOF对照研究,探讨SNAP对脑血管一级侧枝的评价能力。方法1.收集行头颅影像学检查确诊缺血性脑卒中患者34例,收集的病例全部符合本研究的纳入标准。比较责任血管间的斑块负荷并
移动通信技术是影响社会高速发展的重要力量。在多天线领域的革新方面,多输入多输出(Multiple-Input Multiple-Output,MIMO)系统极大地提升了通信系统的性能;在智能运输系统(Intelligent Transportation System,ITS)的成就中,车辆到车辆(Vehicle-to-Vehicle,V2V)通信实现信息交互,具有重要研究价值。V2V通信受街区环境
在实际生产中,永磁同步电机(Permanent magnet synchronous motor PMSM)控制系统受到以负载波动为主的多种扰动影响,扰动导致电机系统性能变差,甚至无法正常运行。本文主要针对由周期性负载扰动造成的永磁同步电机运行脉动问题,基于扰动观测器(Disturbance observer DOB)原理,设计具有特定干扰补偿频率的周期扰动观测器(Periodic disturb
由于供电系统以及用电负荷的多样化发展,随之而来的电能质量问题也愈加复杂,导致作为广泛应用的电能治理设备——SAPF(Shunt Active Power Filter,并联型有源电力滤波器)现有技术已经不能够适用于形式多变的用电环境。基于此,本文针对单相SAPF展开研究分析,分别从主电路参数选择、谐波检测算法、电流控制方法以及实验设计过程四个方面对新型电能质量问题下的谐波抑制和无功补偿作以阐述。S