以資料爲基礎日回歸模型建構分析——以房屋價格爲例

来源 :2008第四届海峡两岸应用统计学术研讨会 | 被引量 : 0次 | 上传用户:c224224224
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要以房屋价格资料爲基础,结合决策树(Decision Tree)建构线性回归模型之案例分析,研究模型之诊断与变数选把程序问题.将成对变数系利用CART法(Classification and RegressionTrees)的分析工具,逐次搜索各种属性水准组合,进行因子水准的合并,而降低模型中因子之水准数目,适切掌握因子间的相关与互动,再进一步作资料分析并建构模型後再精简变数,使线性回归模型能更有效反应母群体的结构.在一个预测变数(predictorvariable)之水准反应的改变依赖於另一预测变数水准的变化,且存在交互作用现象,在此情形下,各预测变数之相加性质,常不足於反应个别预测变数之重要性.因此,仅从线性模型中精简模型,很容易误导结果,这显示传统统计分析是不足的.在解决问题上,同时将资料挖掘(Data Ming)与模型建构之整合是很有必要的.各预测变数之间不仅具有相关关系,而且具有互动关系.当二个或二个以上之变数之间存在着互动现象时,某一变数娈值之改变所引起的反应,将受其他变数值大小的影响,有下列之状况:1.变数间之互动关系不一定是乘法关系.2.变数的交叉乘积(如X1X2或X1X2X3) 通常和原始的变数(X1、X2或X3)有高度相关的现象.在这些交互作用发生的时候,在线性模型之传统变数选把方法中,如果忽略了它们的存在,即可能导致建立偏差的模型.本篇文章以资料爲基础,找出控制各种相关与互动的变数、并降低属性之水准数;提出多重决策程序(Multiple Decision Procedures)并兼顾暂定模型候设的检验,及进一步诊断模型选择的适切性;量後再提出选把变数之凖则.
其他文献
本文运用数据包络分析方法(DEA),对中部六省的环境污染治理相对有效性进行实证研究.结果表时中部少省的款境污染治理相对有效性存在很大的差异,环境治理投入产出结构有待优化,
针对中国DDT防污漆替代的社会经济影响,采用投入产出法、全部成本法和环境风险分析法进行了定量和定性评估.结果表明,在采取各种规避与补贴措施的前提下,选出符合环境友好(低
融资结构对企业价值具有深远影响,有关负债程度与企业价值的关系问题一直是学术界关注的焦点.本文以2003年~2007年我国37家房地产行业上市公司的185组数据为样本,应用现代统计
文章借鉴国际消费者信心指数理论,设计北京市消费者信心指数调查方法、调查对象、调查内容等调查框架,构建北京市消费者信心指数的指标体系和计算方法,并进行了实际调查.依据
会议
随着我国经济社会的快速发展,各类资源消耗量日益增加,资源需求迅猛增长同国内资源不足的矛盾不断地加剧,但“高投入、高消耗、高排放、低效率”的粗放型增长方式并没有从根
会议
我们在研究中小企业数据调查方法时,根据调查需要和中小企业特点提出并设计了其样本轮换模式.对于连续调查,通常要实施样本轮换.三层次轮换主要是针对采用三阶段抽样设计的连
文章借鉴国际消费者信心指数理论,首次对中国消费者信心状况进行调查,根据调查结果编制中国消费者信心指数,并对中国不同特征消费者关于经济发展、就业形势、物价水平、购买
对于一级单元规模较大且调查经费有限时的两阶段抽样月度调查,构造了一种两层次样三轮换模式.该模式中一级单元的轮换模式为24in,二级单元的轮换模式为2-10-2(4).
对于资本市场的研究者和投资者而言,资产组合的选择是一个重要问题.本文首先介绍了模糊聚类分析中的模糊C均值(FCM)方法,然后利用资本市场上的资产的财务数据对相应的资产进行
文章针对问卷设计中遇到的双向列联表规模过大,使被调查者产生厌倦情绪而胡乱回答,从而影响问卷调查质量的问题,提出了一种新方法--利用MATLAB软件编程生成随机数矩阵抽取样