Venus
  • 银正客服1 银正客服2 银正客服3 银正客服5 银正客服6 银正客服4 银正客服7
当前位置:首页 - 商品市场 - 基础知识技巧
基于岭回归分析的CPI模型
发布时间: 2012/3/6 9:15:57 浏览数: 1053 来源:银正投资
从实证分析的结果来看,尽管CPI拟合值与真实值之间存在一定误差,但总体上还是比较接近CPI真实值的,因而模型具有一定的可操作性。   近年国内的CPI状况   居民消费价格指数(下称CPI)是对一个固定的消费品篮子价格的衡量,主要反映消费者支付商品和劳务的价格变化情况,也是一种度量通货膨胀水平的工具,以百分比变化为表达形式。在美国构成该指标的主要商品共分八大类,其中包括:食品酒和饮品、住宅、衣着、教育和通讯、交通、医药健康、娱乐、其他商品及服务。在美国,CPI由劳工统计局每月公布,有两种不同的消费物价指数。一是工人和职员的消费物价指数,简称CPI-W。二是城市消费者的消费物价指数,简称CPI-U。   CPI虽是一个滞后性的数据,但它往往是市场经济活动与政府货币政策的一个重要参考指标。CPI稳定、就业充分及GDP增长往往是最重要的社会经济目标。图1是我国近6年的CPI变化趋势图。去年以来,居民消费品价格指数CPI持续高涨,消费支出的增加牵动着亿万消费者的心。从图中我们注意到,近几年国内CPI有2个快速上升阶段和1个快速下降阶段,第一个快速上升阶段是从2006年3月的0.8%增长到2008年2月的8.7%,第二个快速上升阶段是从2009年7月的-1.8%持续增长到2011年7月的6.5%。下降阶段则是从2008年的8.7%快速下降到2009年7月的-1.8%。CPI的大起大落,不仅影响到经济发展,而且对国民生活造成了很大影响。其中,有2个较长阶段 CPI当月同比增幅超过3%:2007年3月—2008年10月和2010年7月—2011年11月。有1个短期的CPI指数出现了负增长:2009年2月—2009年10月。   一般说来,CPI增幅大于3%称为通货膨胀(INFLATION)。而CPI增幅大于5%则为严重通货膨胀(SERIOUS INFLATION)。严重通胀可引起资源配置错位,破坏投资环境,企业家精神衰退等,从而对经济产生极大的破坏作用。相反,CPI处于负增长称为通货紧缩。通货紧缩对经济增长的影响与经济周期密切相关,经济发展处于正常态势时,通货紧缩不会带来重大困难;当经济处于衰退时,通货紧缩会增加经济复苏的困难。因此,深入研究CPI指数对研究我国经济有非常重要的意义。   我国CPI的构成   在我国,CPI包括食品、烟酒、衣着、家庭设备、医疗卫生保健、文化教育娱乐、交通通讯、居住等八大类。2011年最新调整后,食品占比31.79%,娱乐教育文化用品及服务占比13.75%,居住占比17.22%,交通通讯占比9.95%,医疗保健个人用品占比9.64%,衣着占比8.52%,家庭设备及维修服务占比5.64%,烟酒及用品占比3.49%。   CPI模型的建立   了解了居民消费品价格指数CPI八大类的权重,我们只需要知道相关数据就可以预知当期的CPI指数了。计算公式为:   CPI=31.79%Y1+13.75%Y2+17.22%Y3+9.95%Y4+9.64%Y5+8.52%Y6+5.64%Y7+3.49%Y8   其中,Y1表示食品当月同比增幅,Y2表示娱乐教育文化用品及服务当月同比增幅,Y3表示居住当月同比增幅,Y4表示交通通讯当月同比增幅,Y5表示医疗保健个人用品当月同比增幅,Y6表示衣着当月同比增幅, Y7表示家庭设备及维修服务当月同比增幅,Y8表示烟酒及用品当月同比增幅。   食品类价格指数的多元回归模型的建立   我们重点研究一下CPI八大类数据如何计算,并以食品价格指数为例具体分析。   食品是CPI八大类商品中权重最大的分类项,在食品类价格指数中,又包括粮食、油脂、肉禽及其制品、蛋、水产品,鲜菜、鲜果、调味品等多个小类。由于国家统计局没有公开各个小类权重,所以我们首先要研究食品价格指数中各个小类的对食品指数的影响。假设食品价格指数Y1(应变量),食品类中的各个小类设为X11,X12…X19(自变量)。我们对Y1(食品价格指数)做关于 X11,X12…X19(食品类中的小类)做多元回归分析。其中,X11表示粮食同比增幅,X12表示油脂同比增幅,X13表示肉禽及其制品同比增幅,X14表示猪肉同比增幅,X15表示蛋同比增幅,X16表示水产品同比增幅,X17表示鲜菜同比增幅,X18表示鲜果同比增幅,X19表示调味品同比增幅。   拟合多元线性回归时,自变量之间因存在线性关系或近似线性关系,隐蔽变量的显著性,增加参数估计的方差,导致产生一个不稳定的模型。一般来说,由于经济数据的限制使得模型设计不当,导致设计矩阵中解释变量间存在普遍的相关关系。完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。   多重共线性产生的原因主要有四个方面:(1)经济变量之间的内在联系是产生多重共线性的根本原因;(2)经济变量在时间上有同方向变动的趋势这也是造成多重共线性的重要原因;(3)模型中滞后变量的引入,也是造成解释变量多重共线的原因之一;(4)在模型参数的估计过程中,样本之间的相关是不可避免的,这是造成多重共线性的客观原因。   存在多重共线性的模型,其参数估计量方差的变大,使得计算的 t 统计量变小,从而检验接受原假设H0:βi=0的可能性增大,这样会使本来影响很大的重要因素误判为不显著,结果使模型失去可靠性。其次,由于参数估计量的方差变大,因而对样本值的反映十分敏感,即当样本观测值稍有变化时,模型参数就有很大差异,致使模型难以应用。另外,由于参数估计量的方差增大,使模型的精度大大下降,求出的预测值难以置信。   如果模型中两个解释变量间具有线性相关性,那么它们中的一个变量就可以由另一个变量表征。这时两个参数并不反映各自与被解释变量之间的结构关系,而是反映它们对被解释变量的共同影响,所以各自的参数已失去了应有的经济意义,于是经常表现出似乎反常的现象,例如估计结果本来应该是正的,结果却是负的。经验告诉我们,在多元线性回归模型的估计中,如果出现参数估计值的经济意义明显不合理的情况,应该首先怀疑是否存在多重共线性。   严重的多重共线性常常会导致下列情形出现:使得用普通最小二乘法得到的回归参数估计值很不稳定,回归系数的方差随着多重共线性强度的增加而加速增长,对参数难以做出精确的估计;造成回归方程高度显著的情况下,有些回归系数通不过显著性检验;甚至可能出现回归系数的正负号得不到合理的经济解释。   对于一个给定的线性回归模型和一组样本数据,其解释变量的样本数据中是否存在多重共线性以及共线性的严重程度有多大,显然需要用一定的方法来进行检验。如果在对多元线性回归模型进行统计检验时,发现参数估计值的大小或(和)符号违背经济理论,或者判定系数R2、F检验值很大(p值小)而各个偏回归参数的t 检验值均偏小(其p值大于α),那么很有可能是因为解释变量之间存在多重共线性,这是实际问题中是经常出现的。实践中,常用的检验方法主要有简单相关系数检验法、容限度(Tolerance)法、方差扩大因子(VIF,Variance Inflation Factor)法、特征值和条件指数(Eigen-Value and ConditionIndexes)法、Theil 多重共线性效应系数法等。这里只简要介绍容限度法和方差扩大因子法。   容限度和方差扩大因子是检验多重共线性的两个重要指标。容限度是由每个自变量Xj作为因变量对其他自变量回归时得到的余差比例,即:   Tolerancej=1-R2j   其中,RJ2表示第j个自变量对其他自变量进行回归得到的判定系数R2。容限度很大时, RJ2很小,说明所Xj包含的独立信息很多,可能成为重要解释变量;反之,容限度很小,RJ2很大,说明Xj与其他自变量的信息重复性越大,其对因变量Y的解释能力越小。容限度的大小是根据研究者的具体需要制定的,通常当容限度小于0.1(这里RJ2>0.9)时,便认为变量Xj与其他变量之间的多重共线性超过了容许界限。   方差扩大因子(下称VIF)是容限度的倒数。即:   VIFj=1/Tolerancej=1/(1-R2j )   它表示所对应的偏回归系数的方差由于多重共线性而扩大的倍数。当容限度为 0.1 时,VIF为10(倍)。一般认为:若VIF>10,说明模型中有很强的共线性关系;若条件指数值在10 与30 间为弱相关,在30 与100 间为中等相关,大于100 为强相关。   考察2006年1月—2010年12月的食品价格指数及其各个小类的数据,运用SPSS对数据进行共线性诊断,输出结果如图2所示。   对于给定的样本数据,如果其存在较严重的多重共线性,那么就必须采取一些措施进行处理,以减轻其不良影响。常用的处理方法有删除不重要的解释变量、追加样本信息、利用非样本先验信息、改变解释变量形式、逐步回归法等等。这里我们主要运用岭回归的分析方法来解决多重共线性的问题。   岭回归基本思想: 当出现多重共线性时,有XX≈0 ,从而使参数的B=(XX)-1XY很不稳定,出现不符合含义的估计值,给XX加上一个正常数矩阵KI(K>0),则XX+KI等于0的可能性就比XX的可能性要小得多,再用B=(XX+KI)-1XY来估计,B比用普通最小二乘估计的B要稳定得多。   通过MATLAB进行岭回归分析,运行结果如图3,当k(横坐标)≥0.9时每个变量相应的岭回归系数变化较为稳定,因而可选k=0.9,建立岭回归方程为:   Y1=0.159X11+0.074x12+0.101x13+0.069x14+0.038x15+0.205x16+0.09x17+0.054x18+0.348x19-0.663……………(1)   其中,Y1—食品价格指数,X11—粮食,x12—油脂,x13—肉禽及其制品,x14—猪肉,x15—蛋,x16—水产品,x17—鲜菜,x18—鲜果,x19—调味品。   同样,我们对烟酒、衣着、家庭设备、医疗卫生保健、文化教育娱乐、交通通讯、居住等其他的7大类做同样的分析,得到如下的回归模型:   Y2=0.472X12+0.371X22+0.046… (2)   Y3=0.896X13-0.014…………… (3)   Y4=0.922X14+0.127X24+0.577…(4)   Y5=-0.102X15+0.236X25+0.379X35+0.316…………………………………(5)   Y6=0.04X16+0.13X26+0.092X36+0.417…………………………………(6)   Y7=-0.017X17+0.068X27+0.264X37+0.088X47+0.15X57+0.112X67-0.336… (7)   Y8=0.231X11+0.574X21+0.255X31+0.282…………………………………(8)   模型的优缺点   接下来,我们用2011年的CPI数据来验证模型的优劣性。我们用上面的回归模型对2011年的CPI数据进行验证分析,结果如下表所示。   从实证分析的结果来看,尽管CPI拟合值与真实值之间存在一定误差,但总体上还是比较接近CPI真实值的,因而模型具有一定的可操作性。   但CPI模型也存在一定的不足之处。第一,由于CPI八大类的数据都是通过多元回归计算出来的,单个回归模型本身就存在一定误差,况且是八个回归,多个误差叠加,使得误差扩大化。第二,由于国内CPI经常需要调整,所以在分析建模过程中,采集的数据时间段不够长,样本不够多,导致了模型有一定的误差。第三,从理论上来分析,如果CPI数据足够多,且真实有效,本文中的CPI模型将比较合理,CPI拟合值与真实值误差较小,不过,仍然值得注意的是,个别CPI拟合值与真实值之间误差较大。