以資料爲基礎日回歸模型建構分析——以房屋價格爲例

来源 :首都经贸大学,中央财经大学,西南财经大学,淡江大学 | 被引量 : 0次 | 上传用户:liongliong427
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要以房屋价格资料爲基础,结合决策树(Decision Tree)建构线性回归模型之案例分析,研究模型之诊断与变数选把程序问题.将成对变数系利用CART法(Classification and RegressionTrees)的分析工具,逐次搜索各种属性水准组合,进行因子水准的合并,而降低模型中因子之水准数目,适切掌握因子间的相关与互动,再进一步作资料分析并建构模型後再精简变数,使线性回归模型能更有效反应母群体的结构.在一个预测变数(predictorvariable)之水准反应的改变依赖於另一预测变数水准的变化,且存在交互作用现象,在此情形下,各预测变数之相加性质,常不足於反应个别预测变数之重要性.因此,仅从线性模型中精简模型,很容易误导结果,这显示传统统计分析是不足的.在解决问题上,同时将资料挖掘(Data Ming)与模型建构之整合是很有必要的.各预测变数之间不仅具有相关关系,而且具有互动关系.当二个或二个以上之变数之间存在着互动现象时,某一变数娈值之改变所引起的反应,将受其他变数值大小的影响,有下列之状况:1.变数间之互动关系不一定是乘法关系.2.变数的交叉乘积(如X1X2或X1X2X3) 通常和原始的变数(X1、X2或X3)有高度相关的现象.在这些交互作用发生的时候,在线性模型之传统变数选把方法中,如果忽略了它们的存在,即可能导致建立偏差的模型.本篇文章以资料爲基础,找出控制各种相关与互动的变数、并降低属性之水准数;提出多重决策程序(Multiple Decision Procedures)并兼顾暂定模型候设的检验,及进一步诊断模型选择的适切性;量後再提出选把变数之凖则.
其他文献
在肯塔基州,乳癌爲第二顺位导致女性癌证死亡的主因,但是未有任何空间分析研究的文献发表,所以本文期盼透过集群分析云探讨不同的区域特徵与在各区域上的乳癌发生率之间的相互关系,以明确的了解影乡区域乳癌发生之并异的相关因子,进而对乳癌的发生或死亡加以有效的预防.本文中主要探诗的四大类型区域特徵:人口组成、社会资本、环境污染及城乡差异。经由SaTScan中常态模型云比较乳癌发生率在调整各区域特徵前後之空间群
We experimentally compare the performance of Multiple Criteria Linear Programming(MCLP) and Linear Discriminant Analysis(LDA)classification algorithms by implementing bias-variance decomposition. Unde
本文在构建反映经济社会发展水平、结构、速度和质量四个方面的指标体系的基础上,选取中国东中西部29省为研究对象,采用因子分析法对29省的经济社会发展状况进行综合评价排序,实证结果表明:29省的经济社会发展很不平衡,东、中、西部的差距较大,除内蒙古名列第10名,西部大多数省区综合经济社会发展的名次均靠后.
积极发展现代农业,扎实推进社会主义新农村建设,离不开作为“稳定器”和助推器“的农业保险的支撑和保障.本文以安徽省为例,依据问卷调查资料和1998-2006年统计资料,对新农村建设背景下农业保险发展进行了实证研究.揭示出业保险发展中存在的四个问题和五大成因,提出了发展业保险、推进新村建设的七点对策建设,供经济实践部门决策参考.
本文针对北京市流动人品规模庞大的现实,理论联系实际,建立基于新经济增长理论指导下的具有C-D函数形式的北京市有效劳动模型,强调基于人力资本水平调整的有效劳动要素对经济增长的影响,进而测算出外来劳动力资源对北京市经济增长的贡献率大约在10%左或.其中,有效劳动投入量数据采用”从业人员数量X平圴受教育年限“估计具有一定理论意义.测算结果对辅助北京市流动人品管理政策的制定具有实践意义.
一般认为合资企业比独资企业更有利于产生技术溢出,而中国近年已经显示出明显的外资独资化趋势.基于此,本文尝试应用第一次经济普查有关制造业的细分数据,采用分层模型,就外商独资化倾向对行业内技术溢出效应的影响进行实证分析.分析结果表明,独资化对内资企业确实具有负面影响:在竞争性技术效应产生方面,独资化有抑制作用;在集聚性技术溢出效应方面,独资化产生了更强的“挤出”效应.
巴赛尔银行监理委员会於2001年1月公布新版巴赛尔资本协定,并於2006年底正式实施.新协定鼓励银行能建立自己的内部评等系统评估违违约风险,并重视银行放款风险考量资讯的量化和降低计提所需资本,进而提高金融机构风险敏感性,以弥补传统标凖法的不足.爲因应此趋势,本研侒以台湾公开资料库的资料爲实例,资料的观察基间爲1996至2005年,透过资料采矿流程,以制造传统産业公司之授信样本爲嘛要研究对象,建构企
在常利率且保单到达服从Poisson过程的风险模型中,将单险种推广为双险种,并且通过扩散过程来描述随机因素的影响,在更一般的情形下,得到了破产概率満足的显示表达式和Lundberg上界.
金融市场中的实际观测数据,除随机性外往往还带有模糊性,这样的观测数据通常以观测区间的形式给出,例如,当我们谈及某日的上证指数时,其观测值总是在量低点与最高点之间波动,观测值的这种不确定性来自于多重隶属现象,而非随机现象,我们称这种不确家性为模糊性.不确定性问题通常含有两种意义上的分类:一类是随机不确定性,人们依靠概率统计方法进行处理;另一类是非随机性的不确定性,即为模糊性问题,通常利用模糊集合理论
本文以2006年6月至2008年6月所有在A股市场上市的企业为对象,研究了我国股票市场波动与IPO融资行为的关系,证明并解释了我国股票市场IPO融资不存在市场择时行为,分析了我国当前股票融资机制的缺陷,并探讨了解决方案.