多元回归算法范文
多元回归算法范文(精选8篇)
多元回归算法 第1篇
差分演化 (Differential Evolution, DE) 是一种基于群体差异的演化算法, 该算法是Rainer Storn 和Kenneth Price在1996 年为求解切比雪夫多项式而提出的。差分演化算法在首届IEEE演化计算大赛中表现超群, 已经在数字滤波、化工、阵列天线方向图综合、机械优化设计等领域得到了广泛的应用。
回归分析中的参数估计是指在实际问题中随机变量分布函数的形式己知, 但其中参数未知的情况。如果得到了随机变量的一组样本值后, 希望利用样本值来估计变量分布中的参数值, 这在工程中是一个比较重要的问题。在回归分析中, 最大似然估计法是模型参数估计的基本方法。但在用该方法进行参数估计时, 一般要求解联立的超越方程组, 相当复杂, 用常规迭代算法不易求解, 而且收敛性较差, 甚至有时不能收敛。本文采用DE算法, 以最大似然准则作为适应度函数, 建立回归分析中的参数估算模型。探讨多元线性回归中的参数估计计算。数值仿真分析表明, DE算法可以精确地计算出相关参数。
1 DE算法
差分演化是一种基于实数编码的演化算法, 算法的基本思想及整体构架与遗传算法相类似, 从一代种群到下一代种群都要经过变异、交叉、选择等操作, 也一样有几个至关重要的参数必须事先确定。下面逐一介绍差分演化算法的几个关键性的操作。
1.1 参数的确定
差分演化算法主要涉及以下4个参数:①种群规模大小N;②个体的维数D;③变异因子F;④交叉概率CR。有研究结果表明:群体规模N一般介于5D-10D之间;变异因子F在 (0, 2) 之间取值, 一般F=0.5;交叉概率CR一般在[0, l]之间选择, 一般来说, CR越大, 收敛速度越快, 但易于早熟, 易于陷入局部最优, 算法的稳健性越差, 比较好的选择是CR=0.3。当然这些都只是经验值, 没有严密的理论证明, 对于某些具体的问题也可能取其它的值会得到更好的结果, 需要具体问题具体分析。
1.2 生成初始种群
在D维空间里随机产生满足约束条件的N个染色体, 具体过程如下:
undefined
其中xundefined和xundefined分别是第j个变量的上下界, rand (0, 1) 返回[0, 1]之间的随机数。
1.3 变异操作
一般情况下变异操作有如下两种方式:
Scheme DE1:对于群体中个体xr1 (1r1N) , 由此产生的新个体x'r1 (1r1N) 满足下式:
undefined
其中r2, r3∈[1, N], r1≠r2≠r3, F>0为放缩因子。
Scheme DE2:对于群体中个体xr1 (1r1N) , 由此产生的新个体r'r1 (1r1N) 满足下式:
undefined
其中r2, r3∈[1, N], r1≠r2≠r3, F>0为放缩因子, xbset为当前产生的最优个体, λ为增加的一个控制变量, 一般取和F相同的值。
1.4 交叉操作
交叉操作是对群体每一个个体xr1 (1r1N) 以及由此经过变异产生的新个体x'r1 (1r1N) 之间进行的, xr1和x'r1经过交叉以后产生子代的候选个体v, 经过后面的选择操作, 确定是个体xr1还是个体v保留到下一代。交叉操作主要有两种形式:bin方式和exp方式。
1.5 选择操作
经过交叉和变异以后产生了新的个体v, 根据目标函数值的大小, 从xr1和v中选择一个遗传到下一代。如下式 (以求函数最小值为例) :
undefined
2 多元线性回归模型
线性回归模型在定量分析的实际研究中是最流行的统计分析方法。在许多实际问题中, 某个变量Y往往相关于另外一些变量X1, X2, , Xp-1, 但是这种相关关系或者由于其机理不甚明确, 或者由于问题的复杂性而不能确切知道, 因此只能说由X1, X2, , Xp-1的取值部分确定Y的取值。在这些情况下, 可以认为Y的值由两部分构成, 一部分是由X1, X2, , Xp-1能够决定的部分, 它是X1, X2, , Xp-1的某个函数, 记为f (X1, X2, , Xp-1) ;另一部分是众多未加考虑因素 (包括随机因素) 所产生的影响, 被看作是随机误差, 记为ε。于是Y与X1, X2, , Xp-1的关系可以表示为:
undefined
回归分析即利用Y与X1, X2, , Xp-1的观测数据, 并在误差项的某些假定下确定f (X1, X2, , Xp-1) 。利用统计推断方法对所确定的函数的合理性以及由此关系所揭示的Y与X1, X2, , Xp-1的关系作分析, 进一步应用于预测、控制等问题, 特别是当f (X1, X2, , Xp-1) 是X1, X2, , Xp-1的线性函数时, 有:
undefined
此模型称为线性回归模型, 其中β0, β1, , βp-1是未知常数, 称为回归参数或回归系数;Y称为因变量或响应变量;X1, X2, , Xp-1称为自变量或回归变量;ε称为随机误差项并假定E (ε) =0。ε是不可观测的随机变量, 而Y与X1, X2, , Xp-1是可观测的变量。这里只讨论自变量X1, X2, , Xp-1是非随机变量的情形, 而y与ε有关, 是随机变量, 但它是可观测的。
3 算例分析
3.1 计算模型
多元线性回归模型中的一组参数看作一个个体, 种群中的每一个个体代表模型估计问题中的一个候选解, 于是第i个个体pi表示为:
undefined
另外, 定义适应度函数来评价种群中的每个个体, 根据最大似然估计法, 定义适应度函数如下:
undefined
最优解就是使适应度函数Q (θ) 最小的个体。
3.2 与Weka计算结果的比较
3.2.1 测试1
该算例是Weka3.6.2中自带的CPU性能测试的实例, 多元线性回归示范模型如下:
undefined
其中, 变量X1表示周期 (MYCT, 单位ns) ;变量X2表示最小主存 (MMIN, 单位KB) ;变量X3表示最大主存 (MMAX, 单位KB) ;变量X4表示高速缓存 (CACH, 单位KB) ;变量X5表示最小信道 (CHMIN) ;变量X4表示最大信道 (CHMAX) 。具体数据见表1。
DE算法参数选择如下:个体大小为7;种群大小M=30;迭代次数为800;放缩因子F=0.5;交叉概率CR=0.3。
表2为该算例分别经过DE算法和Weka计算得到的参数估计值的比较。
经过DE算法得到算例1的多元线性回归模型算例的参数估计值为:
undefined
与Weka计算的结果进行对比发现, 使用DE算法得到的参数估计值与Weka软件计算得到的结果一致。
3.2.2 测试2
该算例是一组数据量较小的例子。设已知因变量Y的自变量X1, X2, X3, 共得18组数据, 并已知Y对Xi存在着线性关系, 多元线性回归方程为Y=a0+a1X1+a2X2+a3X3, 求其回归方程。样本数据见表3。
DE算法参数选择如下:个体大小为4;种群大小M=30;迭代次数为800;放缩因子F=0.5;交叉概率CR=0.3。
表4为该算例分别经过DE算法和Weka计算得到的参数估计值的比较。
经过DE算法得到算例2的多元线性回归模型算例的参数估计值为:
undefined
与Weka计算的结果进行对比发现, 使用DE算法得到的参数估计值与Weka软件计算得到的结果一致。
3.3 计算结果分析
使用相对平方根误差 (Root relative squared error) 来评估检验多元线性回归模型的拟合度。计算公式为:
undefined
其中:undefined
p为预测值, a为真实值。
上述两个算例中, 由DE算法得到的相对平方根误差和Weka得到的相对平方根误差的比较如表5所示。
本文通过一些其它数据集的测试, 发现当数据源的数量庞大且有明显的线性关系时, 使用DE算法得到的参数估计值与Weka软件测试得到的结果具有较高的一致性;当数据源的数量比较小且不呈明显线性关系时, 通过DE算法也可以得到参数估计值, 由于Weka本身计算得到的参数估计值就有一定的偏差, 所以不具有比较性。
4 结束语
通过实际算例的仿真实验结果表明, 用DE算法得到的回归结果与Weka统计结果有较好的拟合度, 可以肯定地得知用DE算法来估算回归模型中的参数是可行、可信的。
参考文献
[1]R STORN, K PRICE.Differential evolution-a simple and efficientadaptive scheme for global optimization over continuous spaces[R].Technical report International Computer Science Institute, Berkley, 1995.
[2]ABBASS H A, SARKER R, NEWTON C.PDE:A pareto-frontierdifferential evolution approach for multi-objective optimizationproblems[A].Proceedings of the Congress on Evolutionary Com-putation 2001 (CEC2001) .Volume 2, Piscataway, New Jersey, IEEE Service Center, 2001.
[3]XUE F, SANDERSON A C, GRAVES R J.Pareto-based multi-ob-jective differential evolution[A].Proceedings of the 2003Congresson Evolutionary Computation (CEC2003) .Volume 2, Canberra, Australia, IEEE Press, 2003.
[4]田雨波, 朱人杰, 薛权祥.粒子群优化算法中惯性权重的研究进展[J].计算机工程与应用, 2008 (23) .
[5]王丽, 王晓凯.一种非线性改变惯性权重的粒子群算法[J].计算机工程与应用, 2007 (4) .
[6]王启付, 王战江, 王书亭.一种动态改变惯性权重的粒子群优化算法[J].中国机械工程, 2005 (11) .
西瓜产量相关性状的多元回归分析 第2篇
关键词:西瓜;农艺性状;产量;主成分分析;多元回归方程;果实发育时间;坐果节位;单果质量;育种效率
中图分类号:S651.03文献标志码: A文章编号:1002-1302(2016)02-0224-02
收稿日期:2015-01-05
基金项目:湖北省农业科技创新中心资助项目(编号:200762000103)。
作者简介:葛长军(1982—),男,湖北黄冈人,硕士,农艺师,主要从事蔬菜遗传育种研究。E-mail:gchangjun@163.com。西瓜起源于非洲,栽培历史悠久,地域广泛,分布在热带、亚热带、温带地区。西瓜含有多种营养成分,有较高的营养价值和经济价值。西瓜在中国也有较大的种植面积,长江中下游地区是西瓜栽培的一个重要地区[1]。西瓜的产量性状是一个重要的育种目标,但产量是由多种农艺性状因素构成的数量性状,而农艺性状之间又有一定的相关性,导致分析产量相关因素水平时有一定难度。有人对我国西瓜栽培技术及现状进行了分析研究[2],并对西瓜的品质及感官作了很多有关的试验研究[3-6],国内外专家应用不同分子标记方法分析西瓜产量与品质等其他性状之间的关系[7-10]。育种学家也越来越重视对西瓜的研究[11]。目前,关于西瓜性状之间相互关系的研究并不多[12-13],关于西瓜主要影响性状因素与产量的数学关系模型的研究尚未见报道。因此,本研究根据对西瓜多个农艺性状运用主成分分析提取主要影响产量性状的因素,利用多元回归分析探明影响西瓜产量和性状之间的数学相互关系,以期为评价西瓜资源提供理论参考,并为西瓜育种提供一定的科学依据。
1材料与方法
1.1试验材料
供试品种为荆杂30、弘丰8号、瑞丰、中科6号、鸿利黑超人3号、美玉王、澳美8号、小富、圣鹰、鄂西瓜13等10个品种。试验在湖北省黄冈市梅家墩试验基地进行,于2014年4月2日播种,小拱棚内营养钵育苗,5月2日定植。
1.2试验方法
试验采取随机区组设计,3次重复,小区长7.4 m、宽 3 m,小区面积22.2 m2。小区定植株距0.37 m,行距3 m,每小區定植20 株,田间统一管理。在每个品种第一重复的小区内连续选取10株作为性状调查考种对象,考种结果作为分析数据。主要调查性状有全生育期(x1)、果实发育时间(x2)、坐果节位(x3)、坐果率(x4)、单果质量(x5)、果形指数(x6)、果皮厚度(x7)、产量(x8)等8个。
1.3统计分析
试验数据采用SPSS 13.0软件[14]进行分析。
2结果与分析
2.1数据分析检验
为尽可能合理地解释存在于原始变量之间的相关性,并且简化变量的维数和结构,采用主成分分析法。通过巴特利特球度检验和KMO检验,其中KMO值为0.745,根据Kaiser给出的KMO度量标准可知,原有变量可以进行主成分分析。通过巴特利特球度检验,统计量的观测值为745.951(自由度为28),相伴概率为0,小于显著水平0.05,即相关矩阵不是单位矩阵,代表群体的相关矩阵间有共同因素存在,可用于作主成分分析。
2.2主成分分析结果
如表1所示,通过总方差分析提取的特征值是大于1的变量,第1组数据项第1个因子的特征根值为4.792,能够解释原有8个变量总方差的59.906%,在所有因子中处于最重要的位置,累积方差贡献率为59.906%;第2个因子的特征根值为1.257,解释原有8个变量总方差15.710%,累积方差贡献率为75.616%。2个因子共解释原有变量总方差的75.616%,使原有变量的信息丢失较少,说明较好地解释了8个原变量。总体上而言,选用2个因子能较好地反映原有的8个变量,因子分析效果较理想。
2.3公共因子分析
由图1所示,根据因子序号和对应特征位描点,用直线相连,即为碎石图。比较陡的直线说明直线端点对应因子的持征值差值较大,比较缓的直线则对应较小的特征值差值。前面2个公共因子的直线坡度较大,特征值变化非常明显,到3个因子后,特征值小于1,直线趋于平稳,特征值变化也趋于平稳。
著作用。
由表2可知,为了更好地解释因子,通过因子载荷矩阵旋转后进行分析,第一主成分主要反映产量因子,即果实发育时间、产量和单果质量,其中载荷最大的果实发育时间(x2)数值为0.936;第二主成分主要反映果实因子,即果皮厚度和坐果节位。第一主成分主要分析产量相关的性状,第二主成分则分析了影响果实的主要性状因素,在进行多元回归方程建立时,为了充分降维,主要对第一、第二主成分的果实发育时间、产量、单果质量和坐果节位等主要性状进行分析。
2.4多元回归方程的建立
通过数据拟合结果,所考察的自变量(坐果节位、果实发育时间、单果质量)和因变量之间的相关系数为0.946,拟合线性回归的确定系数为0.894,经调整后的确定系数为0.891,标准差的估计值为3.406 17。说明所建模型与数据的拟合程度较好。
表3表明,回归方程显著性检验结果回归平方和为9 398.061,残差平方和为1 113.789,总平方和为10 511.850,对应的F统计量的值为270.013,相伴概率P<0.001,说明坐果节位、果实发育时间、单果质量3个自变量与因变量(产量)之间存在线性关系,所建立的回归方程有效。
nlc202309040406
3结论与讨论
西瓜的产量受综合性状因素的影响,本研究结果表明主成分因子中载荷较大的是果实发育时间、产量和单果质量和坐果节位,这与仇志军等的分析结果[15]一致。本试验在产量因子分析中得出果实发育时间和单果质量是影响西瓜产量的主要因素,在果实因子分析中得出坐果节位是影响西瓜产量的重要因素,把影响产量的性状降到3个,说明通过主成分的降维效果是较好的,用更少的性状因素明确性状与产量间的关系。
在多元线性回归分析中,如果众多解释变量之间存在较强的相关性,即存在高度的多重共线性,那么会给回归方程的参数估计带来麻烦,最简单和最直接的解决方案是削减变量的数量,主成分分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个指标,有效地降低变量维数。运用多元回归分析时应对不同环境作具体分析, 这与不同生态区环境有一定的关系,不同地点、环境和品种都可能造成影响产量的主要性状改变,具体原因有待进一步研究。
本研究结果表明,所选取的8个西瓜性状数据可进行主成分分析。2个主成分因子能够解释原有变量总方差的75.616%,较好地解释了原有8个性状变量,主成分分析效果较理想。本研究选用2个因子中载荷较大的果实发育时间、坐果节位和单果质量等农艺性状,与产量关系建立有效的数学模拟方程。在西瓜育种过程中,须要注意性状之间复杂的遗传关系,可采取相应措施,选育适宜当地的优良品种,通过对果实发育时间、坐果节位和单果质量等性状定向选择提高育种效率,这为将来的育种研究提供了一个参考和方向。
参考文献:
[1]张法惺. 西瓜种质资源遗传多样性的分析[D]. 哈尔滨:东北农业大学,2010:8-9.
[2]王鸣,侯沛. 西瓜的起源、历史、分类及育种成就[J]. 当代蔬菜,2006(3):18-19.
[3]赵巍. 机器视觉在西瓜无损检测与分级中的应用[D]. 武汉:华中農业大学,2013:2-9.
[4]杜少平,马忠明,薛亮. 密度、氮肥互作对旱沙田西瓜产量、品质及氮肥利用率的影响[J]. 植物营养与肥料学报,2013,19(1):150-157.
[5]张帆,宫国义,王倩,等. 西瓜品质构成分析[J]. 果树学报,2006,23(2):266-269.
[6]蔡树美,诸海焘,余廷园,等. 西瓜产量与养分含量的灰色关联度和通径分析[J]. 土壤,2014,46(4):651-655.
[7]张爱萍,王晓武,张岳莉,等. 西瓜种质资源遗传多样性的SRAP分析[J]. 中国农学通报,2008,24(4):115-120.
[8]郭军. 西瓜种质资源的遗传亲缘关系与品种的分子鉴定研究[D]. 杭州:浙江大学,2001:19-25.
[9]Hashizume T,Shimamoto I,Hirai M. Construction of a linkage map and QTL analysis of horticultural traits for watermelon[Citrullus lanatus (Thunb.) Matsum & Nakai]using RAPD,RFLP and ISSR markers[J]. TAG,2003,106(5):779-785.
[10]段会军,马峙英,张彩英,等. 西瓜品种间亲缘关系的AFLP分析[J]. 河北农业大学学报,2007,30(1):27-30.
[11]莫言玲,张显,张勇,等. 西瓜分子育种研究进展[J]. 北方园艺,2012(8):194-199.
[12]江海坤,袁希汉,章镇,等. 西瓜主要农艺性状与裂果性状的相关及通径分析[J]. 中国蔬菜,2009(16):31-35.
[13]李绍稳,朱立武,宣洋,等. 红色籽用西瓜果实与种子经济性状相关与回归分析[J]. 安徽农业大学学报,2002(1):64-67.
[14]陈平雁. 统计软件应用教程[M]. 北京:人民卫生出版社,2005:233-244.
[15]仇志军,郑素秋. 西瓜数量性状的遗传研究[J]. 湖南农学院学报,1992(S4):762-769.
多元回归算法 第3篇
影响煤炭需求的因素复杂,然而并不是考虑的影响因素越多,预测的结果越精确。反之,如果只考虑有限的几个影响因素,则只能相对地反映影响突出的一个或几个因素,丢失信息较多,不能达到很高的预测精度,而且很容易发生误判。偏回归平方和是多元回归模型中一个很重要的参数,它以各因素的样本数据为依据,用其大小来描述各因素在回归中所起的作用。通过采用偏回归平方和参数对全国煤炭需求影响因素的优选,建立了多元回归模型,对全国煤炭需求作了回归模拟,取得了比较理想的检验效果。
1 需求量预测多元回归模型的建立
因变量y与x1,x2,,xk的一组样本(x1i,x2i,,xki,yi),设x1i,x2i,,xki和yi之间线性相关,则
yi=b0+b1x1i+b2x2i+bkxki+εi(i=1,2,,n,n>3)
其中,b0,b1,,bk是k+1个未知参数,εi是随机误差。称方程
undefined
为多元线性回归方程[1]。式中回归系数undefined由下列方程组求得:
undefined
undefined
2 煤炭需求量影响因素偏回归平方和分析
2.1 偏回归平方和
定义残余平方和undefined,回归平方和undefined。
在多元线性回归中,回归平方和U可反映所有k个回归自变量x1,x2,,xk对回归因变量y的总影响,即在该k元线性回归模型中所起的总作用。可以设想以其中一xi在U中占有的分量,或称对U的贡献,来反映其作用。也即舍弃该xi,而拟合出其余的k-1个回归自变量所组成的k-1元线性回归方程,其相应的回归平方和为Ui,它反映了其余k-1个回归自变量所起的作用。相应地,残余平方和由原来的Q因减少一个变量xi而增大为Qi,至少不小于Q。也即通常UiU。因此,若在所考察的因素中去掉一个因素,回归平方和只会减小,不会增大。减小的数值愈大,说明该因素在回归中起的作用愈大,该因素愈重要。显然,差值Vi=U-Ui可反映该变量xi对回归平方和U的贡献即占有分量,也即表示出xi单独对回归因变量y的影响。通常称其为某一变量的偏回归平方和[2]。
2.2 影响因素分析步骤
通常在计算偏回归平方和以后,对各因素的分析可按以下步骤进行[2]:
(1)凡是偏回归平方和大的变量,一定是对y有重要影响的因素。至于偏回归平方和Vi大到什么程度才算显著,可用残余平方和Q对它进行F 检验。为此计算出统计量
undefined
当Fi≥Fα(1,n-k-1)时,则认为变量x对y的影响在α水平上显著。此检验亦称回归系数显著检验。
(2)偏回归平方和小的变量,不一定不显著。但偏回归平方和最小的那个变量,肯定是所有变量中对y作用最小的一个,假如此时变量检验结果又不显著,那可以将该变量剔除。剔除一个变量后,需重新建立k-1元新回归方程,计算回归系数和偏回归平方和。
2.3 预测指标的选取
煤炭需求量的影响因素很多,包括:人口增长与城市化、经济发展及产业结构变化、科技进步与节能和能源结构等[3]。
根据以上影响因素,抽取了一系列与之相关的统计数据[4](表1):煤炭占能源消费总量的比重x1、原煤占能源生产总量的比重x2、GDP x3、第一产业x4、第二产业x5、第三产业x6、人均生活煤炭消费量x7、人均生活消费电力x8。
根据表1中的数据,利用Excel表,分别计算各影响因素xi的偏回归平方和Vi和统计量Fi(表2)。
查F分布表,得F0.05(1,8)=5.32。因F2>F0.05(1,8),故V2在α=0.05水平上显著。而其他Fi均小于F0.05(1,8),故其他Vi不显著。这说明原煤占能源生产总量的比重是影响煤炭消费量的一个主要因素,而其他则影响较小,并且影响因素中煤炭占能源消费总量的比重x1、人均生活煤炭消费量x7和人均生活消费电力x8的偏回归平方和较其他影响因素要小得多。于是,可剔除这3个影响因素,利用Excel表中的LINEST函数,从而得到新的优化模型的回归方程为:
undefined
考虑全部影响因素的原始模型的回归方程为:
undefined
3 预测结果分析
从表3中,比较两模型的预测结果可以看出:优化模型的平均相对误差为0.009 98%,小于原始模型的相应误差0.01 026%;优化模型的最大相对误差为3.103 52% ,小于原始模型的最大相对误差3.15 954%;优化模型的误差平方和为0.003 44,接近于原始模型的误差平方和0.003 34。
综上可知,采用偏回归平方和参数对全国煤炭需求影响因素进行优选而建立的多元回归模型,从总体上起到了提高预测精度的作用。所以,用该方法进行预测是有效的,预测的结果是可信的。
4 结语
(1)采用偏回归平方和参数对全国煤炭需求影响因素进行优选而建立的多元回归模型,从总体上起到了提高预测精度的作用,用该方法进行预测是有效的,预测的结果是可信的。
(2)该法可以简化模型,减少多余自变量参与回归运算的计算量,有利于提高拟合精度,从而更好地对煤炭消费量进行预报与控制。
摘要:将偏回归平方和理论运用到影响煤炭需求量预测指标的选取中,确定了影响煤炭需求量预测的主要指标。根据这些指标建立了预测煤炭需求量的多元回归模型,并对预测结果作了分析,得出结论:采用偏回归平方和参数对全国煤炭需求量的影响因素进行优选而建立的多元回归模型,从总体上起到了提高预测精度的作用。用此方法进行预测是有效的,预测的结果是可信的。
关键词:煤炭需求,多元回归,偏回归平方和,预测精度
参考文献
[1]周圣武,李金玉,周长新.概率论与数理统计(第2版)[M].北京:煤炭工业出版社,2007.
[2]沙定国.误差分析与测量不确定度评定[M].北京:中国计量出版社,2003.
[3]张宏,李仲学.煤炭需求影响因素及前景分析[J].煤炭学报,2007,32(5):557-560.
多元回归算法 第4篇
相关理论综述
财政政策的挤出效应, 是指扩张性财政政策所带来的不良后果。在一般情况下, 这种政策将使支撑民间部门投资的储蓄转用于购买政府债券, 而发行债券又是为了弥补赤字;同时在货币供给量不变的情况下, 赤字财政导致利率水平提高, 从而产生对民间部门投资的挤出效应。
国内外理论界对以发行国债为手段的财政政策是否存在挤出效应, 持有不同的观点。
1.国外学者的观点
(1) 存在挤出效应。大多数国外学者认为, 以发行国债为手段的财政政策存在挤出效应。帕延金认为, 财政赤字具有完全的挤出效应。货币需求函数对利率完全无弹性。均衡利率虽然提高了, 但是实际上国民收入水平和收入流通速度未变。在这种情况下, 提高利率将导致民间部门投资支出和私人消费支出降低, 正好抵消了增加的财政支出, 挤出效应是完全的。凯恩斯理论认为, 商品市场不存在利率影响。在商品市场的利息无弹性的情况下, 这种政策所提高的利率水平, 不会影响民间部门支出。弗里德曼认为, 在长时期内, 在不改变货币供给情况下的财政扩张, 即赤字的债券融资, 会挤出或替代私人投资。
(2) 不存在挤出效应。本杰明弗里德曼认为, 在一定条件下, 债券融资的赤字并非必然挤出私人投资, 反而能刺激私人生产的投资, 增加实际私人支出, 即对私人投资产生挤入效应。
2.中国学者的观点
(1) 存在挤出效应。张帆认为, 私人投资者对利率的反应大体上是正常的, 财政政策在短期内对增加总产出有影响, 但同时会通过利率上升挤出一部分私人投资。安体富认为, 在实施积极财政政策的同时, 税收快速增长, 意味着积极财政政策产生了排挤效应。戴园晨认为, 非国有经济原来准备对某些项目进行投资, 后来因国家投资同样的项目, 非国有经济的投资被挤出。
(2) 不存在挤出效应。刘溶沧和马栓友认为, 中国的赤字、国债规模未产生挤出效应, 不仅财政赤字未使利率上升, 而且财政投资也未挤出私人投资。曾令华认为, 实际利率上升与它对非政府投资的某些抑制作用, 不能说明政府支出扩张具有挤出效应, 只是说明利率政策与财政政策不协调。
我国发行国债挤出效应的实证分析
1.建立模型
根据挤出效应原理, 当政府发行国债时, 私人投资会减少。一般来说, 私人投资可能受经济整体运行状况和货币供给量的影响。因此, 笔者以私人投资 (IP) 作为被解释变量, 以国债发行规模 (BOND) 、整体经济运行状况 (GDP) 、货币供应量 (M) 作为解释变量, 得出方程:IP=C+a1GDP+a2M+a3BOND。
2.数据分析
选取1985~2009年的私人投资 (IP) 、国内生产总值 (GDP) 、货币供应量 (M2) 、国债发行量 (BOND) 等相关统计数据。经济变量本身的特点容易产生异方差问题, 为消除异方差, 对上述变量均作取自然对数处理, 此时方程为:LN=C+a1LN (GDP) +a2LN (M) +a3LN (BOND) 。
通过分析发现, 三个解释变量 (GDP、M、BOND) 与被解释变量 (IP) 之间具有明显的线性关系。
3.模型参数估计
对于上述变量的统计数据, 利用最小二乘估计法进行回归, 得到的结果是:LN (IP) =-5.842483+1.400901 LN (GDP) +0.213224LN (M) -0.280450LN (BOND) , T值为 (-6.029457) 、 (3.646494) 、 (0.625253) 、 (-3.330125) , Adjusted R-squared为0.993281, F-statistic为1183.577, Prob (F-statistic) 为0.000000。根据回归结果, 上述除LN (M) 的参数以外, 其他解释变量的参数均显著地通过了T检验。同时, F检验也非常显著, 模型的整体拟合度较理想。
4.模型的检验和修正
(1) 异方差检验。采用White方法对异方差进行检验。由于White统计量的值为250.388502=9.71255, 小于5%显著性水平下自由度为6的卡方分布的临界值12.59, 因此不能拒绝同方差的假设, 即这一回归模型不存在异方差性。
(2) 自相关性检验。采用DW方法对自相关性进行检验, DW=1.551847, 而此时d L=1.21, d U=1.55, 于是d U
(3) 多重线性检验。相关系数矩阵显示, 解释变量之间的相关关系数都很高, 数据可能存在多重线性问题。
(4) 方程修正。基于上述检验, 采取逐步回归方法寻找最佳回归方程。利用EVIEWS进行分析可看到, 私人投资受整体经济运行的影响较大, 如模型:LN (IP) =-3.574743+1.226760LN (GDP) , T值为 (-12.78669) 、 (48.58067) , R-squared为0.990349, 为初始回归方程, 随后引入变量LN (M) , 得出结果:LN (IP) =-4.97099335176+1.79065108333LN (GDP) -0.432873954254LN (M) , T值为 (-4.411622) 、 (4.051892) 、 (-1.278007) , R-squared为0.991016。从上述结果可看出, 引入解释变量LN (M) 后, 拟合优度R-squared有所提高, 但是LN (M) 的参数未通过T检验, 且符号不合理, 去掉LN (M) , 引入LN (BOND) , 得到最终的回归方程:LN (IP) =-6.21453729944+1.63038869448 LN (GDP) -0.250492572244LN (BOND) , T值为 (-8.240981) 、 (14.56917) 、 (-3.667918) , R-squared为0.994011。
(5) 回归和检验的结论。针对发行国债对私人投资的挤出效应, 笔者利用相关统计数据进行回归分析, 结果表明, 私人投资与国债发行之间存在较明显的线性关系, 验证了大量发行国债会引起私人投资减少, 即对私人投资产生挤出效应。但是根据最终的回归结果分析, LN (BOND) 的系数很小, 仅为-0.250492572244, 即当GDP不变时, 每发行1单位的国债, 使私人投资减少0.250492572244个单位, 表明我国发行国债对私人投资的挤出效应并不明显。
我国发行国债挤出效应不明显的原因分析
从上述计量分析中可看出, 发行国债的挤出效应在我国不明显, 主要原因是:
1.利率机制未市场化
在标准的IS-LM模型中, 利率是市场化的, 挤出效应通过利率机制实现。利率是否上升, 可作为衡量国债投资对私人投资是否产生挤出效应的指标。1998~2009年, 为了配合积极的财政政策, 中国人民银行多次下调利率, 并增加货币供应量。目前, 在我国“国债扩大发行规模利率上升投资减少”的传导机制并不存在, 所以传统的挤出效应在我国表现不明显。
2.增发国债未与民间竞争资金
多数学者认为, 近几年商业银行的超额准备金率均超过7%~10%, 存在较大的存贷差额, 并且商业银行的资金过剩是在满足政府借款需求之后, 增发国债不会挤出私人投资, 所以不存在政府通过发行国债投资与私人投资竞争有限资金的情况。
3.非政府部门投资的利率弹性小
在目前经济处于下行通道的形势下, 银行的贷款规模缩小, 不是因为非政府部门投资对利率弹性变得敏感, 而是因为全球性的经济危机给国内的外贸出口型企业造成出口阻碍, 使其盈利能力下降、还债能力大幅度减弱, 造成银行“惜贷”局面。一旦经济回升, 即使利率上升, 非政府部门的贷款需求也会再度旺盛, 非政府投资也会随之高涨。
4.经济中存在资源闲置
我国的国债投资发生在经济衰退时期, 因私人部门缺乏投资冲动, 国债投资不仅可直接扩大投资需求, 还可诱发私人投资, 带动民间部门投资增长。2009年的政府工作报告显示:在工业增加值方面, 私营企业是18.7%, 国有企业是6.9%;在总资产数量方面, 私营企业增长20.1%, 国有企业增长14%;在从业人数方面, 私营企业增加5.3%, 国有企业增加0.8%;在主营业务收入方面, 私营企业增加18.7%, 国有企业降低0.2%;在利润方面, 私营企业的总利润增加17.4%, 国有企业下降4.5%。这些数据均表明到目前为止, 我国不存在较大的“挤出效应”。
5.国内资金供给充裕
随着分配体制改革, 城乡居民储蓄规模由1982年的447.33亿元增加到2009年的260771.66亿元。这不仅为发行国债提供了大量的资金来源, 而且也为满足企业的投资需要提供了资金保障。同时, 外资大量流入也为国内投资提供了资金。由于存在大量闲置资金和储蓄资金, 连年扩大发行国债规模并未产生挤出效应。
6.国债投资具有外部性
我国的长期建设国债重点投向基础设施、科技开发和教育等。通过国债融资进行投资的领域主要是高速公路、供水和机场等基础设施, 属于社会公共支出领域, 对民间投资不会形成挤出效应。如果考虑到国债投资项目作为公共产品或混合产品的外部性, 尤其是人力资本积累和技术进步对自生性投资增长的长期影响, 政府增加投资性支出, 不仅不会挤出私人投资, 而且还会促进增加私人投资。
总结与建议
虽然政府为弥补财政赤字缺口而增发国债, 会在一定程度上引起对私人投资的挤出效应, 但是并不明显。为了防止在以后的经济发展中挤出效应扩大, 笔者提出几点建议:
1.完善国债政策
国债投资要创造环境, 而不是创造收益。凡是政府能设计出有效的“补偿机制”, 使投资者的收入足以补偿其所投资金, 市场配置能保障有效供给的领域, 国债资金尽量少介入;凡是市场配置不能保障有效供给而对经济发展又至关重要的领域, 国债资金可重点介入。
2.完善利率政策
挤出效应通过利率机制实现, 完善利率政策在防止挤出效应扩大化方面有着积极的作用。从长期看, 应遵照利率的内生性, 推进利率市场化改革, 逐步放开利率管制。
3.明确划分中央政府的投资范围, 避免政府投资对于市场经济的过分干预。
在一般竞争性领域, 中央政府的公共投资要从中退出, 为私人资本的进入让路。对需要加强的就业、生态建设、公共卫生、教育科技和社会保障等薄弱环节, 要加大投入和支持的力度, 建立公共资本促进私人投资提高生产效率的内生增长机制, 促进经济进一步增长。
4.完善市场经济体制, 消除对私人投资的歧视和限制
多元回归算法 第5篇
随着计算机技术尤其是多媒体技术和数字图像处理及分析理论的成熟,图像作为更直接更丰富的信息载体,正在成为越来越重要的研究对象。昆虫是生物类群中物种最丰富、数量最多的一类,尤其是一些农林害虫对农林业生产形成了很大威胁,因此,昆虫成为与人类密切相关的生物类群之一。研究昆虫图像的处理和分析对昆虫形态学、昆虫生态学以及昆虫测报所需的田间抽样调查都具有十分重要的意义。昆虫图像的处理和分析要解决的第一个问题就是数字图像的边缘检测和图像分割。因为数字图像通常是包含多个物体的结果,对昆虫图像的处理和识别来说,目标在于图像中的昆虫部分,即以昆虫部分作为前景,而将寄主植物作为背景。为了识别和分析目标,需要将这些有关区域分离出来,在此基础上才能对目标进一步地利用。这个过程即所谓的图像分割[1]。
灰度和二值化[2]、平均值分割算法[3]、迭代阈值分割算法[4]和中值滤波[5,6]等是早期科研人员采用的昆虫识别方法。近年来,国内外学者研究了基于机器视觉的昆虫识别方法,主要包括数学形态学方法[7,8]、二叉树方法[9]、人工神经网络方法[10,11]和变分水平集方法[12]等。其中,C-V模型是变分水平集的经典模型,也是目前应用广泛的图像分割模型,在医学图像分割中取得了良好的应用效果,但该模型应用于昆虫图像分割效果不太理想。为此本文提出一种基于RGB三色板的多元线性回归的昆虫图像分割方法,该方法能够有效地将目标与背景分割开来,达到理想的分割效果。
1线性回归算法概述
线性回归是利用数理统计中的回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法之一,它在生物、医学、工业、农业、经济以及物理和自然等领域运用十分广泛。 根据自变量的个数,可以把线性回归分为一元线性回归和多元线性回归。
一元线性回归是描述两个变量之间相互联系的最简单的回归模型,它只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示。一元线性回归的数学模型是:
Y=β0+β1X+ε (1)
式(1)中因变量Y由两个部分描述:一部分是由于X的变化引起Y线性变化的部分,即β0+β1X,其中β0和β1是未知参数,称为回归系数;另一部分表示其他随机因素的影响,记为ε。
线性回归算法最初应用于图像处理中时通常选用灰度图像或彩色图像三色板中的一个色板的像素信息建立回归模型。然而,三色板像素信息更有利于表达图像的完整信息,这时采用一元线性回归就有较大的局限性,因此需要借助多元线性回归模型。
多元线性回归研究一个因变量和多个自变量之间数量上相互依存的线性关系。多元线性回归方程的模型是:
与一元线性回归相似,β0是常数项,β1,β2,,βm称为偏回归系数。βi(i=1,2,,m)表示在其他自变量保持不变的条件下,自变量Xi改变一个单位时因变量的平均改变量。ε为随机误差,又称残差,它表示Y的变化中不能由自变量解释的部分。
多元线性回归在实际应用中具有更重要的意义,本文提出的昆虫图像分割方法就是采用多元线性回归的数学模型,结合彩色图像三色板像素信息对图像进行分割,取得了良好的效果。
2基于RGB三色板的多元线性回归算法
2.1RGB三色板多元线性回归的数学模型
根据式(2)的多元线性回归的数学模型,结合彩色图像中的R、G、B三色板信息,建立彩色图像的RGB三色板多元线性回归模型如下:
其中,R、G、B分别表示彩色图像的红色板、绿色板和蓝色板像素信息。图像的R、G、B三色板信息及其线性拟合示意图如图1所示。
图1中星点表示实际RGB三色板像素值,非星点表示线性回归拟合后RGB三色板像素值。从图中可以看出,(a)中像素分布零散;(b)中则拟合效果良好。三色板像素的拟合效果与回归模型中参数β的设定有关。
2.2RGB三色板线性回归模型的参数设定
图像的像素信息通常采用二维坐标表示,即假设I(i , j)表示图像I的第(i , j)个像素,R(i , j)、G(i , j)、B(i , j)分别代表像素I(i , j)的红、绿、蓝三个分量。将这些像素信息代入式(3)中,RGB三色板的多元线性回归模型转换为:
为了计算方便,图像处理中通常将二维向量转换成一维向量, 即使用变换:
R(i,j)R(m(j-1)+i) i=1,,m j=1,,n
则式(4)再次转换为如下形式:
R(j)=β0+β1G(j)+β2B(j) (5)
其中R(j)、G(j)、B(j)分别代表红色板、绿色板和蓝色板像素的一维信息,与式(2)多元线性回归模型中的X、Y变量相对应,则式(5)的变量形式为:
系数矩阵为:
根据矩阵理论相关知识可得线性回归参数的求解公式为:
β=(XTX)-1XTY (6)
由于图像的三色板信息已知,因此可根据所选取区域的R、G、B信息确定β参数,建立整幅图像的线性回归模型,从而将具有同样背景信息的图像分割出来,得到昆虫的目标图像。
以婪步甲成虫图像为例,说明通过选取背景区域确定线性回归参数的过程。
从经过预处理的婪步甲成虫图像的背景样本中任意采集一块5050的像素块,如图2所示,其中(a)为原图,(b)为从背景中选取的像素块样本。
根据选取的像素块,利用式(6)计算机回归模型的参数如下:
β=inv(X′X-1e-10eye(u,v))X′Y (7)
其中β为所求的线性回归参数,
;inv()是矩阵求逆函数;X是由1和所取像素块的G、B值构成的矩阵;X′是X的转置矩阵;eye(u,v)是u行v列矩阵,且主对角线为1,其它元素为0;Y是所取像素块的R值。
根据所选取像素块的像素信息计算出β参数值,将其应用于式(5),再实现对整个图像的分割,利用式(5)的分割结果如图3(a)所示。
实际应用中,像素块的选取依据具体图像的背景信息而定,背景颜色越单纯所需像素块数越少,反之则需要设置多个像素块,以包含更全面的图像信息。样本信息越多越有利于图像目标区域的分割,但同时也加大了工作量,对复杂背景图像选择合适数量的像素块不是容易的事,对此我们引入范数对式(4)的模型进行优化。
2.3RGB三色板线性回归模型的范数优化
式(4)的回归模型是取图像像素的RGB三色板信息建立线性关系,由于像素信息的取值范围较大,有可能导致回归模型的线性拟合发生较大偏差,对三色板信息进行取范数规范化处理可以解决这个问题。
R(i , j)、G(i , j)、B(i , j)的规范化形式如下:
则式(5)的多元回归模型转换为:
利用式(11)分割婪步甲成虫图像的效果如图3(b) 所示。
对比图3(b)和(a)可知,进行范数优化后的算法可以去掉多余的阴影,更好地实现目标提取。
3算法的实现
3.1算法实现步骤
综合以上分析,基于RGB三色板多元线性回归算法的图像分割具体步骤如下:
Step1 图像预处理 首先将昆虫图片进行统一的亮度处理,使图片不至于过亮或者过暗。
Step2 背景样本块选择 从图像的背景信息中选择有代表性的区域作为样本块,以求取回归参数。由于不同图像的背景信息不同,单纯一色的背景也可能由于色度深浅不均带来误差,因而提取1块像素块作为回归模型样本具有较大的局限性。实验证明,在昆虫图像分割中,选择4-7块如图2(b)所示的样本块效果较好。
Step3 建立回归模型 根据样本块信息按照式(6)计算回归参数,建立式(5)的图像RGB多元线性回归模型。
Step4 求取RGB像素范数 根据式(8)-式(10),计算三色板像素的范数,构建优化模型,见式(11)。
Step5 昆虫图像提取 利用优化模型,实现昆虫图像分割。
3.2算法程序设计
根据该算法的实现步骤,软件编程实现基于RGB三色板多元线性回归算法的图像分割的核心代码如下。
4实验效果分析
算法在Windows XP系统下,利用Matlab实现。Matlab是以复杂矩阵作为基本编程单元的一种程序设计语言,它提供了各种矩阵的运算与操作,并有较强的绘图功能。为了验证算法的有效性,选取3张经过预处理的昆虫图片,图片来源于课题组的科研数据库。这3张图片的大小分别为9.81MB、841KB、294KB,且它们的水平分辨率和垂直分辨率均为96dpi。分别采用本文提出的RGB多元线性回归算法和C-V模型算法对所选图片进行分割,效果如图4-图6所示。
图4显示两种算法的分割效果差不多,本文提出的算法计算速度比C-V模型更快;图5和图6显示本文算法分割效果优于C-V模型的分割,C-V模型分割的边界处理效果不是太好,本文算法在分割这两幅图像中分别选择了4块色板和7块色板做样板,取得了较好的分割效果。
表1为本文方法和C-V方法就分割结果的迭代次数和分割时间进行比较。从表中可以看出本文方法无论从速度方面还是迭代次数方面都具有一定的优越性。
5结语
本文介绍了基于RGB三色板的多元线性回归算法及其在昆虫图像分割中的应用,讨论了RGB三色板多元线性回归模型的参数设定方法,并利用范数对像素信息进行规范化处理,
优化了单纯依靠RGB色板信息的多元线性回归模型。实验和实例对比证明,本文提出的算法能较好地实现昆虫图像分割。
在实际的农林虫害防治中,运用本文算法能够很好地识别害虫,将其中的目标区域(害虫)分离出来,从而实现仅对害虫进行药剂喷洒,防止了由于化学药剂的大面积使用而造成的环境污染问题。
本文算法的不足是目前本算法更适合于背景颜色较少、背景色彩分布较均匀的昆虫图片,下一步将针对各种复杂背景图片进一步优化和完善算法,以扩大算法的应用范围。
参考文献
[1]于新文,沈佐锐.昆虫数字图像的分割技术研究[J].农业工程学报,2001,17(3):137-141.
[2]潘梅森,荣秋生.基于SOFM神经网络的图像融合的二值化方法[J].光学精密工程,2007,15(3):99-104.
[3]于新文,沈佐锐.几种图像分割算法在棉铃虫图像中的应用[J].中国农业大学学报,2001,6(5):69-75.
[4]付峰,应义斌.生物图像阈值分割方法的研究[J].浙江大学学报,2003,29(1):108-112.
[5]祁广利.农业机器视觉技术及其应用[J].陕西农业科学,2004(5):121-128.
[6]王建卫.彩色图像的中值滤波算法的改进与应用[J].哈尔滨商业大学大学报:自然科学版,2006,22(4):67-69.
[7]马骏,王建华.一种基于数学形态学的植物病虫识别方法[J].深圳大学学报:理工版,2004,21(1):72-75.
[8]黄小燕,郭勇,赵太飞.数学形态学的储粮害虫彩色数字图像分割[J].计算机测量与控制,2003,11(6):467-469.
[9]林开颜,吴军辉,徐立鸿.彩色图像分割方法综述[J].中国图象图形学报,2005,10(1):1-11.
[10]邱道尹,张红涛.基于机器视觉的储粮害虫智能检测系统软件设计[J].农业机械学报,2003,34(2):83-85.
[11]赵汗青,沈佐锐,于新文.数学形态特征应用于昆虫自动鉴别的研究[J].中国农业大学学报,2002,7(3):38-42.
多元回归算法 第6篇
关键词:旅游消费,多元线性回归,实证分析
一、背景
20世纪30年代以来, 随着经济增长和居民收入水平的提高, 全球旅游业急剧扩张, 逐步成为世界上发展前景广阔, 产业规模庞大的新兴产业之一。根据世界旅游组织统计, 国际旅游业已经成为国际服务贸易中交易额最大的产业之一, 同时旅游业也成为世界上最大的产业, 为全球经济发展做出了不可忽视的贡献。
近年来, 随着我国经济的迅速发展和人们生活水平的不断提高, 我国旅游产业规模不断增大, 出游人数和旅游总收入都不断上升, 旅游业呈现出蓬勃发展趋势。旅游业是高度敏感型产业, 要受到包括政治、经济、文化等各方面因素的影响, 通过调整上述因素, 可以为发展旅游业提供更好的环境, 从而更好地促进我国旅游业持续健康发展。本文将根据旅游经济学的相关理论, 寻找影响我国旅游消费数量的因素, 收集我国历年旅游行业统计数据及其影响因素的统计数据, 再运用计量经济学方法, 对影响我国旅游业消费的因素进行分析, 最后找出影响我国旅游消费数量的显著因素。
从图1中我们可以发现1994年以来旅游人数和旅游收入不断上升, 尤其是2004年以来旅游业处于一个高速发展的时期。
二、模型设定及应用的数据
通过对国内旅游市场的分析, 我们认为有如下潜在因素会对旅游消费产生影响:旅游人数X1, 城镇居民人均旅游花费X2, 农村居民人均旅游花费X3, 国内生产总值X4, 居民消费价格指数 (1978=100) X5, 城乡居民人民币储蓄定期与活期存款总计的年底余额X6。设定计量模型为:
其中, Y为旅游消费 (即旅游收入) 。
模型采用的数据如表1所示。
三、模型数据分析
利用Eviews软件, 采用表1数据对该模型进行OLS回归, 结果如表2所示。
从表2的结果我们可以发现, 该模型的可决系数R2=0.998947、 =0.998045, 拟合程度很高;DW≈2通过检验, 方程不存在自相关;F检验值1107.152显著, 模型整体通过检验;X1、X2、X3、X5、的Prob (T-statistic) 均小于0.05, 通过t检验, 但X4 (GDP) 的Prob (T-statistic) =0.4244, 未通过t检验, GDP与旅游消费关系度不大, X6 (CX) 的Prob (T-statistic) =0.1229, t检验的效果也不是太显著。
注:LS:旅游收入 (亿元) , RS:国内旅游人数 (百万人次) , CZ:城镇居民人均旅游花费 (元) , NC:农村居民人均旅游花费 (元) , GDP:国内生产总值 (亿元) , ZS:居民消费价格指数 (1978=100) , CX:城乡居民人民币储蓄定期与活期存款总计的年底余额 (亿元)
因而在原有模型的基础上剔除X4 (GDP) , 再一次进行OLS回归, 结果如表3所示。
从表3的结果我们可以发现, 该模型的可决系数R2=0.998839、 =0.998114, 拟合程度很高;DW≈2通过检验, 方程不存在自相关;F检验值1376.757显著, 模型整体通过检验;X1、X2、X3、X5、的Prob (T-statistic) 均小于0.05, 通过t检验, X6 (CX) 的Prob (T-statistic) =0.0723, 也基本可以接受。
综上所述, 模型的结果为:
四、模型结论分析
从上面的测算的模型可以知道:国内旅游人数每增加1百万人次, 旅游消费就会增加5.217062亿元;城镇居民人均旅游花费每增加1元, 旅游消费就会相应增加4.857372亿元;农村居民人均旅游花费每增加1元, 旅游消费就会相应增加3.024277亿元;居民消费价格指数 (1978=100) 每增加1个指数, 旅游消费就会减少5.720355亿元;城乡居民人民币储蓄定期与活期存款总计的年底余额每增加1亿元, 旅游消费就会减少0.005887亿元。由此我们可以发现, 国内旅游人数、城镇居民人均旅游花费、农费价格指数对旅游消费的影响比较大, 而城乡居民人民币储蓄定期与活期存款总计的年底余额则相对影响较小, GDP对于旅游消费并没有很大的直接联系。在这之中城镇居民人均旅游花费比农村居民人均旅游花费对旅游消费影响要显著。
参考文献
[1]、达摩达尔.N.古扎拉蒂.计量经济学基础[M].中国人民大学出版社, 2005.
[2]、李子奈, 潘文卿.计量经济学[M].高等教育出版社, 2008.
[3]、于俊年.计量经济学软件:EViews的使用[M].对外经济贸易大学出版社, 2006.
[4]、蒋存虎.关于我国入境旅游收入的实证分析[J].商场现代化, 2006 (10) .
[5]、王占祥.我国国内旅游收入的影响因素分析[J].商场现代化, 2008 (12) .
[6]、牛利民, 杨开福, 朱道静.影响我国旅游消费的经济因素分析[J].资源开发与市场, 2008 (24) .
[7]、张玮.影响我国旅游收入因素的实证分析[J].太原城市职业技术学院学报, 2007 (5) .
多元回归算法 第7篇
随着城市化进程的加快, 机动车辆交通工具日益增多, 近年来城市交通拥堵问题日趋严重, 特别是当前城市道路出现交通事故等突发情况时, 因事故占用车道等原因, 使本来就拥挤的城市交通更加不堪重负。本文针对事故对城市实际交通能力的改变等相关问题进行研究讨论, 从而为交通管理部门正确引导车辆行驶、审批占道施工、设计道路渠化方案、设置路边停车位和设置非港湾式公交车站等提供理论依据。从以下问题进行建模, 并详细解答:如何在发生事故时, 适时地测算出事故横段面实际通行能力的变化过程;当同一横断面或相近横断面发生不同事故, 而事故占用不同车道时, 对实际通行能力的影响有何差异;当事故造成车辆拥堵时, 车辆排队长度与事故横断面实际通行能力、事故持续时间、路段上游车流量有何关系;当事故横断面在同一道路上下移动时, 对排队长度如何推算 (相关数据见2013年高教社全国大学生数学建模竞赛A题) [1,2]。
2 模型设计与仿真
2.1 事故所处横截面通行能力的变化规律
为了求解方便, 用交通事故发生路段被堵车辆的数量来反映实际通行能力, 被堵车辆越多说明道路通行能力越差。我们发现交通事故发生至撤离期间被堵车辆的种类不同, 大小不一。由于不同大小的车辆对实际通行能力的影响不同, 所以大致将车辆种类分为三大类:小型车、中型车、大型车。以小型车为标准车型给出标准车当量折算系数表[3], 同样将各车型被堵车辆数转化为标准车当量数。由于堵车时间短, 采集到的被堵车辆数据比较少, 因此我们采用一维线性插值法, 描绘出单位时间内被堵车辆 (标准车当量数) 变化的光滑曲线, 来观察实际通行能力的变化过程。交通事故发生至撤离期间单位时间内被堵车辆 (标准车当量数) 随时间有所波动, 但总体呈上升趋势, 因此我们认为事故所处横断面实际通行能力呈下降趋势。我们分析, 曲线出现波动主要是因为上游路口的信号灯呈周期性变化, 上游路口红灯亮时, 交通事故发生路段车辆被堵现象有所缓和。
2.2 不同车道对实际通行能力影响的差异
已知交通事故发生至撤离期间事故所处横断面实际通行能力基本上呈下降趋势, 分析说明同一横断面交通事故所占车道不同对该横断面实际通行能力影响的差异。我们应把视频2中统计到的被堵车辆的数量随时间的变化情况和视频1中的绘制在一起, 通过比较两个曲线的变化趋势来分析被占车道不同时, 对通行能力影响的差异。
然后用软件绘制出视频2中交通事故发生至撤离期间单位时间内 (每分钟) 被堵车辆 (标准车当量数) 变化曲线, 如下图所示:
由上图我们可以看出视频2中单位时间内的堵车辆 (标准车当量数) 随时间也有波动, 但总体也呈上升趋势。因为视频1与视频2中的堵车时间不同, 所以当我们将两条变化曲线绘制到一张图上时, 视频1中数据少, 通行能力变化曲线短, 无法比较所占车道不同时后一段时间通行能力的差异。因此我们建立灰色系统模型, 假设视频1中车祸持续时间与视频2相同时, 预测出视频1在后一段时间的堵车数量 (标准车当量数) 。所谓灰色系统主要是根据具体灰色系统的行为特征数据, 充分利用数量不多的数据和信息来寻求相关因素自身与各因素之间的数学关系, 即建立相应的数学模型。GM (1, 1) 模型[4,5]的建立如下:
设时间序列X (0) = (x (0) (1) , x (0) (2) , x (0) (3) , …, x (0) (n) ) , n为数据个数。通过累加生成新序列X (1) = (x (1) (1) , x (1) (2) , x (1) (3) , …, x (1) (n) ) , GM (1, 1) 则模型相应的微分方程为:
其中, a、u为待定系数, 分别称为发展系数和灰色作用量。
设为待估参数向量, 则, 可利用最小二乘法求解。解得:
求解微分方程, 即可得预测模型:
根据以上模型原理[6], 我们用Matlab将数据进行预测, 运行结果的图像如下图所示, 得到后一段时间的堵车数量 (标准车当量数) 。
由上图可以看出, 假设视频1中堵车时间与视频2中一样长, 被堵车辆将会很多。我们将预测后的视频1的数据和视频2的数据用插值法通过软件绘制到同一图像上, 运行图像结果如下图所示。
由上图可以看出, 当我们假设视频1和视频2堵车时间相同时, 视频1中被堵车辆明显比视频2中被堵车辆多。而视频1和视频2中被占车道不同, 视频1被占车道是直行道和左转道。而视频2被占车道是右转道和左转道, 所以当被占车道的流量比例高时对实际通行能力影响大, 而被占车道的流量比例低时对实际通行能力影响小。
2.3 路段车辆排队长度与相关变量间的关系
研究分析视频1中交通事故所影响的路段车辆排队长度与事故横断面实际通行能力、事故持续时间、路段上游车流量间的关系, 我们建立了多元回归模型, 用软件求出回归系数, 从而得出各变量之间的关系。多元回归理论[7]基础如下:
(1) 求回归系数的点估计和区间估计、并检验回归模型
命令为:[b, bint, r, rint, stats]=regress (Y, X, alpha) 。
(1) bint表示回归系数的区间估计。
(2) r表示残差。
(3) rint表示置信区间。
(4) stats表示用于检验回归模型的统计量, 有三个数值:相关系数r2、F值、与F对应的概率p。
说明:相关系数r2越接近1, 说明回归方程越显著;F>F1-α (k, n-k-1) 时拒绝H0, F越大, 说明回归方程越显著;与F对应的概率p<α时拒绝H0, 回归模型成立。
(5) alpa表示显著性水平 (缺省时为0.05) 。
(2) 画出残差图及其置信区间
命令为:rcoplot (r, rint) 。
多元线性回归:y=β0+β1x1+…+βpxp。
根据上述原理, 利用Matlab软件对视频1中所收集的数据进行多元回归分析, 得到方程表达式:
y=-12.629 5+0.207 4x1+15.300 3x2-8.696 4x3
从上式可以看出车辆排队长度与事故横断面实际通行能力成负相关, 与事故持续时间成正相关, 与路段上游车流量成正相关。
3 模型分析与检验
在数据处理中, 采用了插值法, 虽然数据较少, 但用Matlab里的插值法绘制出光滑的曲线仍可以很清晰地发现, 在交通事故发生至撤离期间, 事故所处横断面实际通行能力的变化过程以及同一横断面交通事故所占车道不同对该横断面实际通行能力影响的差异。建立灰色预测模型, 预测出视频1后半段时间的堵车数量, 便于用控制变量法在同一图像的相同条件下比较通行能力的变化趋势。最后采用回归模型, 用Matlab软件算出回归系数, 不仅定性地分析了交通事故所影响的路段车辆排队长度与事故横断面实际通行能力、事故持续时间、路段上游车流量间的关系, 而且定量地给出他们之间的方程关系式。用Matlab的回归工具箱计算出回归系数后, 下面用残差分析法验证所得系数的合理性, 残差分析图如下图所示。
由残差分析图可知, 偏差很小, 该模型是合理的。我们建立了多元回归分析模型, 但是由于各个变量都随时间变化, 在统计数据时, 我们没有考虑各个变量受时间的影响, 可能会造成回归系数不准确。但通过检验回归系数都落在置信区间内, 绘制出残差分析图像仅有一个异常点, 更加肯定了回归分析所得方程的可信度。
4 结语
探究车道被占用对城市道路通行能力的影响, 建立多元回归分析数学模型, 并通过残差分析进行检验, 具有一定的合理性, 使模型逻辑性更强, 同时也体现出研究项目的创新性。本模型可利用更多实际数据进行一些改进, 分析出各地交通拥堵形成原因, 对问题加以完善与改进, 通过人工干预的方法对交通堵塞路段进行处理, 以减轻国内交通拥堵的情况;还可以通过对模型的改进, 将该模型应用于客流量较大的商场、超市中解决顾客的排队问题。
摘要:本文研究车道被占用对城市通行能力影响的问题, 建立了多元回归分析的数学模型, 并编写Matlab程序, 使用Excel、Matlab等软件, 得到交通事故横截面所占车道不同对实际通行能力影响的差异。结果表明, 车辆排队长度与事故横截面实际通行能力成负相关, 与事故持续时间、路段上游车流量成正相关。
关键词:通行能力,车道占用,多元回归分析,残差分析
参考文献
[1]2013年高教社杯全国大学生数学建模竞赛A题[EB/OL].http://www.mcm.edu.cn/.
[2]张晓雨, 王颖杰, 鲍梦婷, 等.车道被占用对城市道路通行能力的影响[J].汕头大学学报 (自然科学版) , 2014, 29 (3) :5-17.
[3]原涛.信号交叉口系统仿真及车辆折算系数的研究[D].陕西:长安大学, 2001.
[4]姜启源.数学模型 (第四版) [M].北京:高等教育出版社, 2011:38-41.
[5]韩中庚.数学建模方法及其应用 (第二版) [M].北京:高等教育出版社, 2009.
[6]张文龙.年平均工资增长预测模型的比较实证分析--以广东省为例[J].企业导报, 2014, (10) :109-110.
多元回归算法 第8篇
1 多元线性回归分析方法
1.1 多元线性回归模型的建立
设影响水力压裂效果的各自变量参数x1,x2,,xk为影响因变量y的k个因素,假定它们之间有如下线性关系[7]:
y=β0+β1x1+β2x2++βkxk+ε。
其中y是可观测的随机变量,βi(i=1,2,,k)是未知参数,称为回归系数,ε是不可观测的随机误差,且有
E(ε)=0,D(ε)=σ2<∞。
其中σ2是未知参数。
取n组不同的(xi1,xi2,,xin)(i=1,2,,n),分别进行n次独立的计算,得到y的n个独立观测值y1,y2,,yn,则有
undefined
该式是一般的多元线性回归模型。在实际应用中,通常采用向量和矩阵的形式表示。
1.2 显著性检验
利用最小二乘法求多元线性回归方程,必须对线性回归方程进行显著性检验[8]。对于给定的显著性水平α,可以查F分布表得到临界值Fα(k,n-k-1)。所以当F>Fα(k,n-k-1)时认为yi组成的矩阵与xin组成的矩阵之间存在线性相关关系,所建立的线性回归方程是显著的;否则所建立的线性回归方程是不显著的。
2影响水力压裂效果各参数的多元线性回归模型
应用建立的模型,对大庆油田62口井的萨2层进行了综合分析,得出各个层位的主要影响因素。影响水力压裂效果的地质参数有地层有效厚度(H)、渗透率(K)、流压(pw)、含水率(fw);注水参数有井口注水压力(pi)、注距(L)、累计注水量(Qi);工程参数有加砂强度(S)、前置液强度(A)、砂比(C)。
2.1 地质参数分析
压后有效期与地质参数的多元回归关系为:M=19.787-0.458H+3.101K+5.647Pw-23.912fw。
对给定的显著性水平α=0.05,查F分布表得临界值F0.05(4,19)=2.9。
因为F=17.076>2.9,所以认为回归方程的线性关系是显著的。
2.2 注水参数分析
压后有效期与注水参数的多元回归关系为:
M=33.625-0.382Pi-0.059L+0.144Qi。
对给定的显著性水平α=0.05,查F分布表得临界值F0.05(3,27)=2.96。
因为F=2.918
M=29.136-0.059L+0.151Qi。
对给定的显著性水平α=0.05,查F分布表得临界值F0.05(2,28)=3.34。
因为F=4.446>F0.05(3,28)=3.34,所以认为回归方程的线性关系是显著的。
2.3 工程参数分析
对工程数据进行计算,可得到有效期与各参数的多元回归关系为:
M=62.374+4.717S-3.171A-1.995C。
对给定的显著性水平α=0.05,查F分布表得临界值F0.05(3,5)=5.41。
因为F=13.558>F0.05(3,5)=5.41,所以回归方程的线性关系是显著的。
3 敏感性分析
为了更清楚的描述各个参数对压后效果的影响,对C63-7井萨2层和B1-72-24井萨3层的影响因素进行了分析,将每个地质参数、注水参数和工程参数逐一进行5%到-5%的浮动(即对一个参数进行浮动的同时保持其它参数不变),并计算此时效果的误差,从而可以得出对效果影响较大的具体的特征参数。表1和表2分别为C63-7井和B1-72-24井萨2层敏感性分析表。
由表1可以看出,对C63-7井萨2层压裂后的效果影响由大到小依次是:砂比、前置液强度、加砂强度、流压、含水、注距、有效厚度和渗透率。由表2可以看出,对B1-72-24井萨3层压裂后的效果影响由大到小依次是:注距、砂比、注水压力、加砂强度、前置液强度、含水、流压、有效厚度、累计注水和渗透率。
由此可以看出,不同的井在不同的储层参数,水力压裂施工参数和注水条件下,各参数对压后效果的影响程度不同。
4 结论
(1) 应用多元线性回归的方法,建立了地质参数和工程参数的多元线性关系。
(2) 对C63-7井萨2层压裂后的效果影响由大到小依次是:砂比、前置液强度、加砂强度、流压、含水、注距、有效厚度和渗透率。
(3) 对B1-72-24井萨3层压裂后的效果影响由大到小依次是:注距、砂比、注水压力、加砂强度、前置液强度、含水、流压、有效厚度、累计注水和渗透率。
(4) 通过对影响压裂效果参数的敏感性分析,为重复压裂的选井选层提供了依据。
摘要:随着油田进入高含水开发后期阶段,油水分布更加复杂,改造对象的地质条件逐渐变差,重复压裂井选井选层难度加大,压裂挖潜的难度日益增大。为了进一步提高重复压裂的效果,必须对影响水力压裂效果的因素进行综合分析,从而为重复压裂选井选层提供依据。影响水力压裂效果的因素不仅有地质因素,还有工程因素。对于注水开发油田,还与注采关系有关。应用多元线性回归分析方法,对大庆油田萨2层的地质参数和工程参数建立了多元线性关系。通过对C63-7井萨2层和B1-72-24井萨3层敏感性分析,研究了各参数的影响程度,并对其进行排序,得到了对水力压裂效果影响较大的具体参数。
关键词:水力压裂,多元回归分析,效果分析,敏感性
参考文献
[1]王鸿勋,张士诚.水力压裂设计数值计算方法.北京:石油工业出版社,1998:198—199
[2]李春月,张士诚,马新仿.多元回归与模糊识别相结合优选重复压裂井.内蒙古石油化工,2010;10(3):132—133
[3]吴家文,宋考平.注水井单层累积注水倍数的计算方法.大庆石油学院学报,2005;29(2):28—30
[4]蒋廷学.重复压裂选井选层的模糊识别方法.石油钻采工艺,1997;19(3):60—62
[5]蒋廷学,汪绪刚.水力压裂选井选层的快速评价方法.石油钻采工艺,2003;25(4):49—51
[6]王志刚,孙玉玲.影响低渗透油田重复压裂效果的研究.石油学报,1990;11(3):50—57
[7]汪荣鑫.数理统计.西安:西安交通大学出版社,1986:198—221
多元回归算法范文
声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。如若本站内容侵犯了原著者的合法权益,可联系本站删除。