非线性数据范文
非线性数据范文(精选9篇)
非线性数据 第1篇
关键词:非线性,智能配电系统,大数据
1.问题与模型描述
1.2模型描述
2.主要结果
3.结束语
本论文针对非线性智能配电系统大数据能源负荷预测方法进行智能配电网络化控制系统模型存在的瓶颈进行处理,达到预期效果。
参考文献
[1]郑小发,苏义鑫.非线性船舶电力均衡系统的离散结构设计[J].舰船科学技术,1672-7649(2016)9A-0001-03.
数据结构线性表实验报告 第2篇
课程名:数据结构
实验名:线性表及其操作 姓名: 班级: 学号:
撰写时间:2014.09.24
一 实验目的与要求
1.掌握线性表的实现
2.掌握线性表的基本操作的实现
二 实验内容
• 分别完成线性表的顺序表示及链式表示
• 在两种表示上, 分别实现一些线性表的操作, 至少应该包括 – 在第i个位置插入一个元素 – 删除第i个元素 – 返回线性表长
– 返回第i个元素的值
三 实验结果与分析
#include
{
printf(“%d, ”,(*p).value);
p=(*p).next;//指针指向下一个结构体
} printf(“n”);} void Link(){
struct V*head;head=(struct V*)malloc(sizeof(struct V));//开辟一个长度为size的内存
(*head).value=-100;//表头为-100(*head).next=NULL;printf(“------------线性表链式表示------------n”);
int i,n=10;struct V*p=head;printf(“10个数据:n”);for(i=0;i (*p).next=(struct V*)malloc(sizeof(struct V)); p=(*p).next; (*p).value=2*i; (*p).next=NULL;} PrintLink(head);//调用PrintLink函数 printf(“删除第四个数据:n”);int k=4;p=head;for(i=1;i p=(*p).next;} struct V*temp=(*p).next;//k表示插入和删除的位置 (*p).next=(*temp).next;free(temp);PrintLink(head);printf(“插入第十个数据:n”); k=10;p=head;for(i=1;i p=(*p).next;} temp=(*p).next;(*p).next=(struct V*)malloc(sizeof(struct V));(*(*p).next).value=-99;(*(*p).next).next=temp;PrintLink(head);} //---------线性表顺序表示-----------void seq1(){ int i,n=10,k=4;int a[10];//---------输出数组元素------------printf(“-------------线性表顺序表示---------n”);for(i=0;i a[i]=i;} printf(“数组元素为:n”);for(i=0;i printf(“%3d”,a[i]);} printf(“n”);//--------插入一个数组元素---------int m=n+1,j=12;//插入元素12 int b[20];for(i=0;i if(i { b[i]=a[i]; } else if(i==k) {b[i]=j;} else {b[i]=a[i-1];} } printf(“输出插入一个元素的数组:n”);for(i=0;i { if(i {c[i]=a[i];} else {c[i]=a[i+1];} } printf(“输出删除一个元素的数组:n”);for(i=0;i printf(“数组元素为:n”);for(i=1;i<=a[0];i++){a[i]=i;} for(i=0;i<2*a[0];i++){printf(“%d,”,a[i]);} printf(“n”);//-----在k位置插入一个元素------------for(i=a[0];i>=k;i--){a[i+1]=a[i];} a[k]=-100;++a[0];for(i=0;i<2*a[0];i++){printf(“%d,”,a[i]);} printf(“n”);//-------在k---------------for(i=0;i>k;i++){a[i]=a[i+1];} a[k]=-1;a[0]=n;--a[0];for(i=0;i<2*a[0];i++){printf(“%d,”,a[i]);} printf(“n”); } int main(int argc,char *argv[]){ seq1();seq2();Link();return 0;} 图1:实验结果截图 随着信息科技的发展,各行各业出现了大量的业务数据。由于数据采集或者输入等原因,往往会存一定比例的空缺值。比如学校里的学生数据库,往往会存在某些学生没参加考试导致某课程没有成绩的情况。在某些海量数据集中,空缺值出现的就更为普遍,如大型购物超市每年销售产生的购物记录数据集以及天文望远镜观测的星系变化数据集不可避免地存在着大量的空缺数据。 数据挖掘[1]技术的目标是从大量杂乱的数据中提取出有价值规律,在各种智能领域有着广泛的应用。然而通常的数据挖掘方法均要求数据是完备的,也就是说数据库中的数据应该是不存在空缺值的。因此数据集合中空缺值的存在严重影响了数据挖掘的效果。所以数据集合中的空缺值填补就显得尤为重要。 对于数据集合中的空缺值填补,以往的填补方法主要可分为基于统计学的填补方法和基于机器学习的填补方法。基于统计学的填补方法主要有均值填补、条件均值填补和全局常量填补等。基于机器学习的填补方法目前主要有基于决策树[2]学习的填补方法和基于神经网络[3]回归等填补方法。其中基于统计学的几种方法,由于不能很好地挖掘出数据之间的关联性,因此导致空缺值填补准确率上存在不足。目前基于机器学习的几种方法,在一定程度上考虑到了数据之间的关联性,因此性能上比基于统计学的几种方法要好。但是它们往往只对线性无噪声数据集比较有效。由于随着信息采集技术的发展,人类面临着大量的非线性噪声数据集,因此发展非线性噪声数据集上的高性能空缺值填补算法就具有极高的研究价值。 随机森林[4]分类技术是一种新一代集成分类技术,它是一个包含多个决策树的集成分类器。鉴于随机森林分类具有良好的非线性数据拟合性能,并且能够很好地抗噪声干扰,以及目前还没有利用随机森林算法进行数据空缺值填补的研究,所以本文提出了一种基于随机森林的数据集空缺值填补方法,具体描述请见第3节。 1空缺值填补方法简述 空缺值填补是数据挖掘顺利进行的重要前提,填补的效果直接影响着数据挖掘的效果。空缺值填补一般可以分为基于统计学的填补方法和基于机器学习的填补方法,下面对它们进行分别分析。 1.1基于统计学的填补方法 (1) 全局平均值填补 该方法首先计算数据集合中空缺值所在属性的平均值,然后用此平均值进行填充。虽然该方法比较简单易于操作,但是填补效果不理想。 (2) 条件均值填补 该方法首先根据类别计算空缺属性的条件均值,然后用此条件值进行填充。虽然该方法效果较全局平均值填补要好一些,但是仍然未达到令人满意的程度。 (3) 全局常量填补 该方法使用一个全局常量进行空缺值的填充,该方法尽管简单,却很容易导致数据挖掘算法误以为形成了数据库表中存在一个特殊的规律,可行性不高。 1.2基于机器学习的填补方法 (1) 决策树归纳填充 该方法将空缺属性看作预测属性,利用数据集合中的其它数据构建决策树,然后对空缺属性进行预测,将该预测值作为最可能的值进行空缺值填补。该方法可理解性较好,但抗噪声能力较差,而且对于非线性数据的拟合能力不够好,所以填补精度还不是很理想。 (2) 基于神经网络回归的 该方法主要是利用神经网络分类器进行空缺属性的预测,然而神经网络学习算法的可理解性较差,对于非线性噪声数据容易陷入过拟合[6],因此填补精度也受到一定程度的影响。 鉴于随机森林算法可理解性好,而且采用集成学习策略对非线性数据很好的避免了过拟合,并且具有较好的抗噪声能力,因此本文提出一种基于随机森林的空缺值填补算法。 2随机森林技术简述 在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。Leo Breiman和Adele Cutler首先发展出随机森林的算法。随机森林这个术语来自于1995年贝尔实验室的Tin Kam Ho所提出的随机决策森林。随机森林方法是一种通过结合Breimans在1996年提出的自助聚集想法和Ho的随机子空间方法来建造决策树的集合,进行分类学习的新一代学习算法。 自随机森林技术出现以来,它已经在很多智能领域得到了广泛的应用。随机森林的几个突出的优点如下: (1) 可以有效避免过拟合; (2) 具有很好的抗噪声能力; (3) 具有很好的非线性数据拟合能力; (4) 算法具有较好的可理解性; (5) 对特征属性的重要性能够进行准确的判断。 3基于随机森林的空缺值填补算法 由于随机森林是一种决策树集成学习方法,因此很好地保留了决策树算法易于理解的优点,而且采用集成策略具有很好的抗噪声能力和非线性数据拟合能力,因此本文利用随机森林算法进行非线性噪声数据集上的空缺值填补,本文将该算法称为基于随机森林的空缺值填补算法MVFRF(A Missing Values Filling algorithm based on Random Forest)。下面对该算法进行详细的阐述。 通常空缺属性可分为两种情况,即标称属性和非标称属性。如表1所示数据表给出了一个空缺属性是标称属性的例子。为表示简单,本文仅列出3个属性作为示范。表1给出了一个统计不同人性别、身高和体重三项指标的数据集。 首先给出基于随机森林的标称属性空缺值填补算法的主要过程如下: 第一步 将空缺值属性作为决策属性,将其他属性作为特征属性(如表1中可以将身高属性和体重属性作为特征属性,将性别属性看作是决策属性); 第二步 从原数据集中使用Bagging抽样方法随机选取一部分样本,作为每一棵决策树的训练集合; 第三步 从原始的大小为M的特征属性集合中,随机选取一个个数为m的新的特征属性集合; 第四步 在新的数据集合上按照完全分裂构造决策树分类器,即所有的树都自然生长,不进行剪枝; 最后 通过投票的方法得到最终的决策规则(比如可以通过平均加权方式 对于空缺值属性是非标称属性的情况。一个简单的例子请见表2。 非标称属性情况下空缺值填补算法与上面的算法基本类似,只是第四步略有不同,此时算法的第四步叙述如下: 第四步 在新的数据集合上按照完全分裂构造决策树回归器,即所有的树都自然生长,不进行剪枝。 可以看出在第四步中,对标称属性空缺情况,利用的是决策树分类器进行空缺值的预测,而对于非标称属性利用的是决策树回归器进行预测。 4实验结果与分析 4.1实验1 为了测试本文提出的基于随机森林的空缺值填补算法(MVFRF算法)在非线性噪声数据集的性能,本文在实验1中从UCI标准数据库中选用部分非线性噪声数据集进行测试。本实验分别采用MVFRF算法和基于决策树回归的空缺值填补算法(MVFDT算法)以及基于神经网络回归的空缺值填补算法(MVFANN算法)进行空缺值填补,从而对填补的结果进行对比。实验中采用的UCI数据集是Australian数据集、Balance数据集、Credit数据集、Iris数据集和Splice数据集。 首先对上述数据集进行10%的空缺值处理,然后利用如上所述的填补算法进行空缺值填补,最后将填补结果与原始数据集进行对比。本实验分别进行5次10折交叉验证[7],各种算法的平均填补准确率如图1所示。 从图1可以看出,本文MVFRF算法较决策树回归算法和神经网络填补方法在效果上要明显优秀一些。这充分说明本文算法可以很好地克服噪声对数据预测的影响,同时又能有效地进行非线性数据拟合。 4.2实验2 在实验1中,本文比较了3种空缺值填补算法在不同的UCI数据集上的填补准确率。在本实验中,我们将重点测试本文提出的MVFRF算法在不同空缺值比例下的填补性能。实验选取ORL人脸识别数据集,该数据集包括40个人的人脸图像,其中每个人有10幅不同的图像。这些人脸图像采集于不同的时间,具有不同的表情和面部细节,而且有一定程度的倾斜(不超过20度)。图2是其中的部分图片。 首先对该数据集进行预处理操作,将ORL人脸数据库的每幅图像经下采样成为6464的图像。然后将该数据集按照10%、20%、30%、40%和50%、的比例做空缺值处理。最后利用MVFRF算法进行空缺值填补。将填补结果与原始数据集进行对比,得到对应于不同比例空缺值的填补准确率如图3所示。 从图3可以看出,随着空缺值比例的增大,MVFRF算法的填补效果变得较差。这主要是因为空缺值比例的增大使得可供学习的数据量变少,影响了MVFRF算法的预测效果。从图3还可以发现,当空缺值比例在20%以内时,MVFRF算法通常可以达到较好的预测结果。 5结语 传统空缺值填补方法在非线性噪声数据集上填补效果不理想。针对这一问题,本文分标称属性和非标称属性两种情况,给出了基于随机森林的空缺值填补算法。由于随机森林算法能够有效地对非线性数据进行拟合,而且具有良好的抗噪声能力,因此本文所提出算法可以有效地提高空缺值填补的准确率。在UCI标准数据集和ORL人脸识别数据集上的仿真实验也充分说明了本文算法较基于决策树回归的空缺值填补方法和基于神经网络回归的填补方法具有明显的优势。 摘要:针对目前空缺值填补方法在非线性噪声数据集上填补效果不理想的问题,分标称属性和非标称属性两种情况提出一种基于随机森林的空缺值填补算法。该算法首先将空缺值看作决策属性,将其他属性值作为特征属性,然后利用随机森林算法进行空缺值的预测。由于随机森林算法具有良好的非线性数据拟合和抗噪声性能,因此该算法可以有效地提高空缺值的填补准确率。在UCI标准数据集和ORL人脸识别数据集上的对比实验充分说明了该算法较以往的填补方法更为有效。 关键词:空缺值,非线性,噪声数据集,随机森林 参考文献 [1]Han J W,Kamber M.Data Mining Concepts and Techniques[M].范明,译.2版.北京:机械工业出版社,2001:257-259. [2]于海平,朱玉全,陈耿,等.一种基于粗糙集理论的决策树构造方法[J].计算机应用与软件,2011,28(2):80-82. [3]王正群,陈世福,陈兆乾.并行学习神经网络集成方法[J].计算机学报,2005,28(3):402-407. [4]Breiman L.Random forests[J].Machine learning,2001,45(1):5-32. [5]AT&T Laboratories Cambridge.The ORL Database of Faces[OL].1994.http://www.etma-orl.Co.uk/facedatabase.html. [6]沈永增,刘小磊.眼部疲劳状态检测算法的研究与实现[J].计算机应用与软件,2011,28(3):106-109,118. 聚集数据线性模型参数估计的相对效率与广义相关系数 对于聚集数据的`线性模型,本文给出了Peter-Karsten估计相对于最佳线性无偏估计的一个相对效率,得到了相对效率的下界,讨论了该相对效率与广义相关系数的关系. 作 者:周永正 ZHOU Yong-zheng 作者单位:景德镇陶瓷学院,信息工程学院,江西,333403 刊 名:大学数学 PKU英文刊名:COLLEGE MATHEMATICS 年,卷(期): 25(2) 分类号:O212.1 关键词:聚集数据 相对效率 线性模型 Peter-Karsten估计 本文基于20022008年我国29个省区(不含我国港澳台地区以及西藏和青海。下同)的面板数据,应用Hansen门限面板回归模型,实证分析政府科技投入对高校应用研究和基础研究的影响。 1 模型设定 1.1 线性模型的设定 本文的理论模型源于Griliches[5]提出的知识生产函数(KPF),采用柯布道格拉斯函数形式,我们将知识生产函数设定为: 其中,Q代表科技产出,A表示研发活动的技术水平,K代表研发经费投入,L代表研发人力资本投入,α、β分别为研发经费投入和人力资本投入的产出弹性,ε为误差项。 由于高校的科技经费投入主要来源于政府科技拨款(GK)、企业委托高校研发经费(EK),所以模型进一步扩展为: 对上式两边取对数,整理得到我们拟采用的双对数线性知识生产函数模型: 式中i和t分别代表省份和年份;z代表个体效应,目的在于控制地区的固定效应;ξit为误差项。 本文分别用各省区的专利申请授权量(Pat)和发表学术论文篇数(Pap)来衡量科技产出Qit,则可以建立式(3)和式(4)的知识生产函数来刻画高校应用研究和基础研究产出与投入之间的关系: 1.2 门限变量的选取和门限模型的设定 在研究不同强度政府科技投入对高校科技产出影响时,面临着政府科技投入强度分组标准确定的问题。传统的做法是研究者主观地确定一个门限值,然后将样本分组研究。显然,这样的研究结果并不可靠。为此,本文采用Hansen[6]发展的门限面板回归模型,根据数据本身的特点划分区间,以严格的统计推断方法对门限值进行参数的估计和假设检验,从而测度不同强度的政府科技投入对高校科技产出促进效应的差异。 对于应用研究模型,如果存在一个门限值γpat,使得qitγpat和qit>γpat时,政府对高校科技投入和对专利产出的促进效应会出现显著差异,其中qit为门限变量,那么可以将应用研究的门限回归模型设定为: 其中:I()为示性函数,即如果括号中的表达式为真,则取值为1;反之,取值为0。qit为门限变量,γpat为特定门限值,ξit~iid(0,σ2)为随机干扰项,相关变量与模型(3)中的变量相同。 同理可得基础研究的门限回归模型,假定Ypap为特定门限值,具体模型如下: 然而模型(5)和(6)都假定存在唯一门限值,而实际上却可能出现两个或两个以上门限值。双门限回归模型和多重门限回归模型可在单一门限模型基础上扩展,本文不再赘述。 由于我国各地区经济基础存在很大差异,相同数额的政府科技投入对经济发展水平不同的省区的影响是不同的,因此,本文门限指标的选取是相对数,即将各省区政府对高校科技拨款占高校科技经费筹集总额的比例(政府科技投入强度)构建为门限变量,然后对其具体影响进行测算。 2 实证研究 2.1 样本选取和数据来源 本文采用面板数据,时间跨度为20022008年,截面范围为29个省区,全部数据来自于《中国科技统计年鉴》和《中国高等学校科技统计资料汇编》,主要包括高校专利申请授权数、发表学术论文篇数、研发活动中的科学家和工程师全时当量、政府对高校的科技拨款和企业委托高校的研发经费。同时,为消除物价变动对分析结果的影响,我们以2002年为基期,折算出各年的GDP平减指数,然后将各省区历年统计数据中政府对高校的科技拨款和企业委托高校的研发经费用自身当年的GDP平减指数进行折算,本文使用的就是折算后的数据。 2.2 实证分析 通过Hausman检验[7]结果得出应用研究模型(3)和基础研究模型(4)都适合于固定效应模型,应用研究模型(3)和基础研究模型(4)的线性回归结果分别列于表2和表3。回归结果显示:应用研究模型调整后的R2=0.8203,F=72.36;基础研究模型调整后的R2=0.9088,F=72.50。可见模型(3)和(4)的回归拟合优度都较高,总体线性关系显著,这表明各变量能在一定程度上解释对专利产出和论文产出的影响。 由表2和表3可得,企业委托高校研发经费和研发人力资本投入的线性回归系数都通过了显著性检验,尤其在基础研究产出模型中,企业委托高校研发经费和研发人力资本投入的线性回归系数显著性水平都比较高。这表明在其他因素不变的情况下,企业委托高校研发经费和研发人力资本投入每增加1%,会分别导致高校专利产出增加0.353%和2.238%、高校论文产出增加0.213%和0.516%。然而,应用研究模型(3)的研究结果显示,政府科技投入对高校专利产出起着不显著的负向作用;基础研究模型(4)的研究结果显示,政府科技投入对高校论文产出起着不显著的正向作用。这很可能是因为政府科技投入与高校专利产出及政府科技投入与高校论文产出之间存在非线性关系,使得线性模型回归结果存在偏差。 为进一步研究政府科技投入与高校专利产出及政府科技投入与高校论文产出之间可能存在的非线性关系,本文采用Hansen的门限效应检验法对应用研究模型(5)和基础研究模型(6)进行检验,采用Bootstrap自助抽样法计算P值,重复次数为3 000次,修切比例为0.05,检验结果如表1所示。由表1可得,模型(5)和模型(6)进行Bootstrap估计的P值都很小,在1%显著性水平下可以拒绝不存在门限值的原假设,接受存在一个门限值的备择假设。因此,认为政府科技投入与高校专利产出及政府科技投入与高校论文产出的关系中存在门限效应。根据模型(5)和模型(6),Bootstrap估计出的政府对高校专利产出和论文产出的科技投入强度门限值分别为83.890%和80.413%。 对应用研究模型(5)进行门限面板回归,结果如表2所示。根据门限值划分的2个区间来看,政府科技投入对高校专利产出呈现出区间效应。当政府科技拨款占高校科研经费总筹集额的比例小于83.890%,政府科技投入对高校专利产出影响不显著;但当政府科技拨款占高校科研经费总筹集额的比例大于83.890%,政府科技投入对高校专利产出影响非常显著,即政府科技投入每增加1%,会导致高校专利产出增加5.535%。 注:***、**、*分别代表1%、5%和10%的显著性水平 基础研究模型(6)门限面板回归的结果如表3所示。由门限值划分的2个区间来看,政府科技投入对高校论文产出同样呈现出区间效应。当政府科技拨款占高校科研经费总筹集额的比例小于80.413%,政府科技投入对高校论文产出影响不显著;但当政府科技拨款占高校科研经费总筹集额的比例大于80.413%,政府科技投入对高校论文产出影响显著,即政府科技投入每增加1%,会导致高校论文产出增加1.581%。 注:***、**、*分别代表1%、5%和10%的显著性水平 2.3 实证结果分析 由应用研究模型(5)和基础研究模型(6)的Hansen门限检验结果得到门限值分别为83.890%和80.413%,即专利产出比论文产出的门限值高出3.577%;但由门限面板回归结果的弹性系数得到,应用研究的产出比基础研究的产出对生产的投入更加敏感。从具体数值来看,企业委托高校研发经费每增加1%,会带来高校专利和论文产出分别增加0.404%和0.216%,即专利产出高出论文产出0.188%;研发人力资本投入每增加1%会带来高校专利和论文产出分别增加2.185%和0.511%,即专利产出高出论文产出1.664%。 政府科技投入要素对高校科技产出的促进作用存在门限效应。在应用研究模型中,当政府科技投入占高校科技经费筹集总额的比例低于门限值83.890%时,对高校专利产出影响不显著;高于门限值83.890%时,对高校专利产出影响显著,其弹性系数为5.535。在基础研究模型中,当政府科技投入占高校科技经费筹集总额的比例低于门限值80.413%时,对高校论文产出影响不显著;高于门限值80.413%时,对高校论文产出影响显著,其弹性系数为1.581。大体上看,政府科技投入对应用研究产出的促进作用比基础研究产出更大。在国内现有的知识生产研究中,如赵红专[8]等研究表明,纯基础研究的成功率比应用基础低;许娇[9]等对我国29个省市知识生产特征的研究也表明应用知识产出对知识生产投入比基础知识产出更加敏感。由此可见,基础知识的突破比应用知识的产生相对较难,即同样的资金和人员的投入,应用知识的产出比基础知识更高一些。本文对我国29个省区高校科技产出的实证研究结果与我国知识生产的普遍规律一致。 3 我国政府对高校科技投入具体分析和启示 3.1 我国政府对高校科技投入总体不足 表4为我国政府科技投入比例区间描述性统计表。根据对应用研究函数的研究,政府对高校科技投入比例低于门限值83.890%的样本为187个,高于门限值的样本为16个;根据对基础研究函数的研究,政府对高校科技投入比例低于门限值80.413%的样本为185个,高于门限值的样本为18个。由此可见,我国政府对高校科技投入比例大多低于门限值。 图1为政府对高校科技投入强度的趋势图。政府对高校科技拨款金额总体呈上升趋势,从2002年的137.07亿元增加到2008年的306.71亿元;但政府资金占高校科技筹集额的比例在2003年有较大幅度的下降,2003年至2006年有震荡,然而都未超过2002年的水平,之后在2007年和2008年急剧上升,2008年为57.713%。 根据政府科技投入区间描述情况和我国政府科技总体投入情况可以看出,我国政府科技投入总体还不足,现有的投入水平与应用研究函数的门限值83.890%和基础研究函数的门限值80.413%还相差较大,因此,从大体上看,我国政府应该进一步加大对高校的科技投入。 3.2 各省区政府对高校科技投入不平衡 为直观反映我国各省区政府对高校的科技投入强度,本文采用20022008年各省区政府对高校科技投入强度平均值绘制图如图2所示。从图2可以看出,我国各省区政府对高校的科技投入强度差异较大,其中海南和宁夏政府对高校科技投入强度超出80%;而政府对高校科技投入强度最低的是四川和辽宁,比例低于40%。 我国各省区政府对高校科技投入强度差异较大,但并不是所有投入强度低的省份都需要大力提高政府对高校的科技投入,因为不同省份的经济基础不同,企业委托高校研发经费的多少存在差异,以及高校资金来源的丰富程度也有很大差异,所以高校对政府科技投入的依赖程度存在显著的地区差异。如江苏、浙江、上海等为经济发达地区,政府对高校科技投入强度偏低,但以上地区的高校从企业获得研发经费量较大,并且从其他途径获得研发经费的机会也比较多,如金融机构贷款等,高校对政府科技投入的依赖程度相对较低;另外,如四川、河北、甘肃、重庆、河南等为经济欠发达地区,但政府对高校科技投入强度低于全国平均水平,由于当地多数企业规模偏小、财力不足,企业从事科技活动也相对少,因此,高校从企业获得研发经费的机会和量都偏少,这就需要政府加大对高校的科技投入,促进高校提升科技产出,推动当地经济发展。 由此可见,我国各省区政府科技投入不平衡,政府对高校科技投入政策应该特别注重政府资金的优化配置,争取把有限的资本使用到资金缺乏的地区,从而获得更高的科技产出。 4 结论 本文采用20022008年我国29个省区的面板数据,应用门限面板回归模型,实证研究政府科技投入对高校应用研究和基础研究的影响,主要结论如下: (1)政府科技投入对高校应用研究和基础研究都存在门限效应,当政府科技投入强度高于门限值时,政府对高校应用研究和基础研究都有显著的促进作用。 (2)近年来,政府对高校的科技拨款金额总体呈上升趋势,但政府对高校科技投入总体还不足,政府应该进一步加大对高校的科技投入。 (3)政府对高校科技投入存在明显的地区差异,四川、河北、甘肃、重庆、河南等省区经济发展水平偏低,特别需要政府加大对这些省区内高校的科技投入。 本文主要分析了政府科技投入对高校科技产出的激励作用,但仅从高校角度衡量最优的科技投入策略,没有考虑在当前政府资金相对紧缺的情况下,政府应该如何优化配置对高校的科技投入和对企业的科技资助,以促进达到最优的社会研发量,从而实现经济可持续发展。这是今后值得深入探讨的问题。 摘要:运用Hansen门限面板回归模型分析政府科技投入对高校科技产出的影响。结果表明,政府科技投入对高校基础研究产出和应用研究产出都存在门限效应,当政府科技投入强度高于门限值时,政府科技投入对高校基础研究产出和应用研究产出存在明显的促进作用。研究也表明政府科技投入总体还不足,且省区差异明显,部分政府科技投入偏低且经济欠发达省区应该加大对高校的科技投入力度。 关键词:教育经济与管理,门限效应,门限面板回归,政府科技投入,高校科技产出 参考文献 [1]郭德侠.中美英三国政府资助大学科研方式比较[J].清华大学教育研究,2010(3):47-54 [2]国家统计局.中国科技统计年鉴[M].北京:中国统计出版社.2009 [3]施定国,徐海洪,刘凤朝.政府科技投入对高校科技支出及专利产出的影响[J].科技进步与对策,2009,26(23):192-195 [4]连燕华,石兵,刘学英,等.国家科学技术投入与产出评价[J].中国软科学,2002(1):28-31 [5]GRILICHES ZVI.Issues in assessing the contribution of R&D to productivity growth[J].Bell Journal of Economics,1979(10):92- 116 [6]HANSEN B E.Threshold effects in non - dynamic panels:Estimation, testing and inference[J].Journal of Economics,1999(93): 345-368 [7]陈强.高级计量经济学及Stata应用[M].北京:高等教育出版社,2010:152-164 [8]赵红专,翟立新,李强.知识生产函数及其一般形式研究[J].经济问题探索,2006(7):12-15 人们的消费[1], 总要以一定的消费资料 (包括劳动) 为对象, 人们要满足自身存在和发展的需要, 满足物质和文化生活的需要, 就是消费各种不同类型的消费资料。任何社会中, 消费都是生产的最终目的。在每年新创造的国民收入中, 主要都是用于消费, 剩余的部分才用于储蓄和投资。消费是社会需求的主体, 是宏观经济统计分析的重要研究对象。日益飙升的房地产价格, 房地产投资也越来越高的回报率, 无论是长期或短期投资, 投资于房地产行业的回报率比银行存款利率更是高出很多, 所以更多的人加入了房地产投资者的行列。社会的不断发展, 随之而来的是人们收入水平的持续提高, 人们逐渐意识到有能力追求更高质量的生活。在近年来房地产的发展形势大好, 不断上涨的房价却让许多刚进入社会的工作的人们背负了巨大的包袱。全社会对住宅的投资额反映了人民的消费水平, 为了研究影响全社会对住宅投资水平的因素, 分析全社会对住宅投资的趋势, 预测未来人们对住宅的投资, 本文提出了数据存在多重共线性的解决办法。 1. 数据收集与预处理 影响人们对住宅投资的因素很多, 我们考虑主要分析的因素有:国内生产总值、居民消费支出和房地产年增加值, 从这三方面因素分析对全社会住宅投资的影响程度。 从理论上讲, 从国内生产总值方面来说, 国内生产总值的增长会促进居民消费水平的提高, 能够促进人们有更多的资金进行投资, 对住宅的投资量会加大, 也就是说国内生产总值和住宅投资同方向变动, 具有正相关。从居民消费支出方面来说, 居民消费支出的增长会促进人们对住宅的投资热情, 也就是说, 居民消费支出和住宅投资同方向变动, 具有正相关。房地产增加值的增长会使市场的住宅供给加大, 为全社会住宅投资提供更多的住宅, 促进全社会的住宅投资, 具有正相关。 本文分析数据来源于2012年的《中国统计年鉴》[2] (来自国家统计局) 1995年—2011年全社会住宅投资、支出法国内生产总值结构、国内生产总值、第三产业增加值这三个数据内的部分数据。 图1为变量 (居民消费支出X1, 国内生产总值X2, 房地产业增加值X3, 全社会住宅投资Y) 数据变化趋势图。由图可知, 从1995年到2011年来, 我国的国内生产总值的增加从1995年以来飞速的增长2011年的国民生产总值已经是1995年的10倍。 然而, 全社会住宅投资, 居民消费支出, 房地产业增加值的增长幅度不是很明显, 但全社会住宅投资的增长比房地产业增加值的增长幅度要大, 说明房产的需求度还是比较的高, 房地产的发展前景比较明朗。 表1为自变量样本相关系数, 可知各变量的相关系数都在0.9以上, 说明自变量X1、X2、X3与因变量Y有高度的线性相关性, 适合做Y与3个自变量的多元线性回归, 但是所有自变量之间的相关系数也非常大, 因此, 我们有理由怀疑它们存在多重共线性。 2. 回归模型的建立 为了研究全社会住宅投资水平受居民消费者支出, 国内生产总值, 房地产业增加值的影响程度, 本文选取了1995年-2011年这四个指标17年的数据为样本。 采用多元线性回归进行问题的分析[3]。设定的线性回归模型为: 其中, β0, β1, β3是3个未知参数, β0称为回归常数, β0, β1, β3称为回归系数。y称为被解释变量 (因变量) , 而x1, x2, L, xp是p个可以精确测量并可控制的一般变量, 称为解释变量 (自变量) 。ε是随机误差, 与一元线性回归一样, 对随机误差项我们常假定 称 为理论回归方程。 利用R软件对invest数据进行最小二乘回归, 结果见表2。 对数据进行简单线性回归, 虽然可决系数R2=0.9931, 但是T检验X1、X2的P值大于显著性水平, 不能对它直接拟合, 我们应用了AIC (Akaike information criterion) 在逐步回归语句 (函数step () ) 中选择变量。结果舍弃了X1, X2变量, 回归结果见表3。 从图2的QQ图和关于残差的Shapiro-Wilk正态性检验结果中的p值为0.812可知, 在0.05的显著性水平下不能拒绝残差来自正态总体的假定。因为通过逐步回归后, 拟合模型的自变量减少到了一个, 从它们各变量间的相关系数来看, 各自变量可能存在多重共线性。后面我们将用两种回归方法对数据进行处理。 3. 数据存在多重共线性检验方法 在多元回归中, 当两个或更多的自变量有些相关的时候, 就有可能出现多重共线性的情况。这时, 模型或数据的微小变化有可能造成系数估计的较大变化, 这使得结果模型不稳定, 也不易解释。一般来说, 只要不存在严重共线性, 对预测不会有较大影响。但高度的多重共线性会造成计算困难, 比如矩阵的逆可能会不稳定。 有一些关于多重共线性的度量, 其中之一是容忍度或方差膨胀因子 (VIF) , 而另一个是条件数, 常用k表示。其中容忍度与VIF的定义为: 式中, Rj2是第j个变量在所有其他变量上回归时的确定系数, 容忍度太小 (按照一些文献, 比如小于0.2或0.1) 或VIF太大 (比如大于5或10) 则有多重共线性问题。而条件数的定义为: 式中, λ为XTX的特征值 (X代表自变量矩阵) 。显然, 当自变量矩阵正交时, 条件数k为1, 一些经验表明, 当k>15时, 有共线性问题, 而当k>30时说明共线性的问题严重。 关于本文所用的数据, 因为怀疑其有多重共线性, VIF可以通过R软件包car的函数得到, 条件数可从R软件固有的函数kappa () 得到。计算结果发现, 数据X1的条件数k=415.7196, 而X1的3个VIF为674.4617, 808.3424, 135.654, 表明共线性很严重, 我们就不尝试简单回归了。 下面介绍处理多重共线性的几种常用方法, 包括岭回归 (ridge repression) , lasso回归, 适应性lasso回归, 及偏最小二乘回归 (partial least squares regression, 或PLSR) 等, 这四种回归的原理参照吴喜之教授复杂数据统计处理方法[4]。 4. 实例应用 下面我们将对样本数据用R软件使用两种方法进行处理, 一个是lasso回归, 一个是偏最小二乘回归。 (1) lasso回归 图3为样本数据在lasso回归中系数随参数的变化, 最左边是只有截距, 最右边是保持所有变量。 计算中发现, 样本数据在lasso回归中Cp值的变化, 在第二步时Cp值最小, 使laa$Cp最小步时的系数为2.093193。由图4可知, 用CV选择了3个变量, 而用Cp选择了1个变量。Lasso回归对于系数的选择用k折交叉验证法保持了3个变量, 从系数来看, 对因变量的影响最大的为X3, 而用Cp统计量来评价回归只保留了一个自变量, 就是X3。 (2) 偏最小二乘回归 偏最小二乘回归方法是在因变量与自变量中各自寻找一个因子, 使这两个因子在其他可能的成分中最相关, 由下面在R软件中的运行结果来看可以看出前2个因子可以代表92.6%的方差。 图5为偏最小二乘回归中CV的RMSEP变化, 根据偏最小二乘回归中CV的RMSEP最小的原则挑选因子数量。可以看出3个因子时RMSEP最小。 用不同准则 (RMSEP, MSEP, R2) 在不同因子数量时的值, 由下面的输出结果来看, RMSEP, MSEP, R2都选择了3个因子。 对于全社会住宅投资这个数据, 对它产生最大影响的还是房地产的增加值, 因为国内生产总值与房地产的增加是密切联系的, 而消费者支出又与国内生产总值是密切关联的, 因此, 它们是存在着多重共线性的, Lasso回归通过筛选掉一些系数, 偏最小二乘估计用因子来代替原来的变量进行回归, 虽然得出的是有偏估计, 但是对它的多重共线性也是得到了处理, 对于这类数据的处理方法还有其它方式, 就由读者亲自试验了。 结论 随着经济的快速发展, 人们的收入也随之提高, 了解人民的消费水平以及消费能力成为关注的重点。通过对全社会住宅投资量进行多因素分析, 建立以住宅投资为被解释变量, 居民消费支出, 国内生产总值为解释变量的多元线性回归模型。利用R软件对全社会住宅投资量进行简单拟合, 分析之后发现数据存在多重共线性, 多重共线性的使得模型或数据的微小变化就有可能造成系数估计的较大变化, 使得模型不稳定, 对处理多重共线性有多种方法, 本文展示了lasso回归及偏最小二乘回归对数据进行处理的方法, 用比较合理的有偏估计方法处理多重共线性的问题。 参考文献 [1] (美) 萨缪尔逊.经济学 (中册) [M].中国发展出版社, 1995. [2]国家统计局.中国统计年鉴2012.国家统计出版社. [3]何晓群, 刘文卿.应用回归分析 (第三版) .北京:中国人民大学出版社, 2011. 对于一组有限序列x (n) , 采用离散傅立叶变换 (DFT) 则需要大量的时间进行数据处理, 显然不能满足快速生产的需要;而快速傅立叶变换 (FFT) 却可以有效解决测试时间过长的问题, 但FFT变换对有限序列的长度却有严格的限制。为了解决测试系统中出现的这些问题, 一种基于DSP的线性调频Z变换 (以下简称CZT变换) 技术得到了广泛的应用。相对于傅立叶变换的两种变换方式, CZT变换不仅可以快速解决测试时间及有限序列长度问题, 且可得到相同的测试结果。本文将重点讨论该种CZT变换技术。 1 傅里叶变换的应用 离散傅里叶变换 (DFT) 是连续傅里叶变换在离散系统中的表示形式, 由于DFT的计算量很大, 因此在很长一段时间内其应用受到很大的限制。1965年由Cooley和Tukey提出了快速傅里叶变换 (FFT) 算法, 它是快速计算DFT的一种高效方法, 可以明显地降低运算量, 大大地提高DFT的运算速度, 运算时间缩短一至两个数量级, 从而使DFT在实际应用中得到了广泛的应用;虽然FFT变换可以解决测试速度的问题, 但FFT变换结果只能得到取样点的频谱值, 而得不到取样点之间的频谱信息。当实际频谱的峰值落在频谱取样点之间时, 从FFT计算的结果中得不到该峰值的真实频率、幅值和相位。如果把FFT谱的峰值作为真实频谱的峰值, 必然带来频率、幅值和相位误差。 1.1 离散傅里叶变换 (DFT) 傅里叶变换中频域表示的各个分量由复指数函数构成, 也可以用正弦和余弦函数组合起来表示。假定任意波形都可以用正弦和余弦交叉表示, 按照DFT的定义可得: 目前一些测试系统通过离散傅里叶变换可以直接从这些正弦、余弦数列中计算出频率分量, 即有限数列的频率。这种在每一点进行计算的方法就如同对一个振幅和相位可调的滤波器, 在某一频带内进行扫描测试, 该可调滤波器计算出在每一频率XK时正弦和余弦的输出。如将所有余弦相加被定义为实部, 所有正弦相加被定义为虚部, 则实部和虚部分别用下式所示: 这时, 在频率XK采样处功率频谱定义为: 在频率XK采样处相位频谱定义为: 但对每一个XK, 要得到DFT结果都需要进行N次复数乘运算和N-1次复数加运算, 因此对N个X分量, 总的DFT运算结果需要做N2次复数乘运算和N (N-1) 次复数加运算, 虽然可以用数列x (n) 的各种对称性可以加快DFT的计算, 但这种条件往往不能满足, 所以DFT运算在混合信号电路测试中显然不能满足快速生产的需要。 1.2 快速傅里叶变换 (FFT) 快速傅里叶变换一般采用基2时分蝶式运算定理, 对N个X分量, 其共需要做的N/2 (log2N) 次复数乘法运算和N (log2N) 次复数加法运算。和DFT直接计算相比, 复数乘法次数和复数加法次数之比分别为: 由此可见, FFT运算量相对于DFT的运算节省是非常大的。但由于FFT变换的最大局限性是其对有限数列的长度有严格的要求, 采样数据个数须为2n个, 即 (64, 128, 2n) , 但采样序列长度与FFT谱分辨率成反比, 即FFT谱分辨率=采样频率/采样数, 所以在混合信号测试过程中, 要将采样频率做适当的调整以使采样数据满足该条件, 但这种对采样频率的要求严重影响了混合信号电路的测试。 2 CZT变换 Chirp-z变换是一种可以有效计算数据序列的功率谱和相位谱的方法, 它采用螺线抽样, 可适用于更一般情况下由x (n) 到X (Z K) 快速算法, 这种用卷积来计算DFT变换的方法称为线性调频Z变换, 简称ZCT。在对相同的采样数据序列, CZT变换结果和DFT、FFT变换结果一致, 但其数据序列长度要求相对于FFT变换来说却是任意整数长度的。 2.1 CZT变换理论分析 对长度为 (N-1) 的有限序列x (n) , 用X (z) 表示其Z变换, 利用CZT算法, 可以计算下列给定点ZK上的X (ZK) , 令: (k=0, 1, , M-1) , 其中W=W0e-jφ0, A=A0ejθ0, W0和A0是正实数。经过一定的推论可得: 对于一组采样数列x (n) , 一般是按下列步骤进行分析: (1) 选择一个最小的整数L, 使其满足L≥N+M-1, 同时满足L=2m, 以便采用基-2FFT算法。 (2) 令补上零值点变为L点序列, 并利用FFT法求g (n) 序列的L点DFT: (3) 相关序列h (n) 补零加长, 周期延拓成L点序列, 即: (4) 利用FFT方法求h (n) 序列的DFT: (5) 将列长为L的二序列G (r) 和H (r) 逐点相乘得到的是列长仍为L的频域离散序列, Q (r) =G (r) ﹒H (r) 。 (6) 将Q (r) 作L点离散傅里叶反变换, 这样就得到q (k) =g (k) *h (k) =g (k) h (k) , 由于只有M点相关, 所以只取前M点序列。 (7) 最后求X (ZK) : 由以上公式可知, 对任意长度的采样数据序列, CZT变换可通过补零点的方法转换成L长的序列后直接进行处理, 解决了FFT变换对数绝序列长度为2n的限制, 且CZT可表示为离散卷积, 可利用快速傅里叶变换和逆变换实现, 从而保证了计算速度。CZT运算相对于FFT变换需要进行更多次的变换, 运算次数和成比例, 变换时间是FFT变换时间的2~3倍。 对某一输入波形 (fi) 进行数据序列采样, 采样频率为fs, 采样周期数为n, 样本大小为m, 频率分辨率为fres, 则有: 合并式 (13) 、 (14) 得: 对于在一定频率下的采样数据, 输入信号的最高频率是采样频率的一半, 被成为奈奎斯特速率。任意高于奈奎斯特速率的数据频率都是伪信号, 或者采样不到, 如果没有额外的修正, 这些伪信号将使得DFT变换在低频时测试不准确。 为了利用FFT变换技术, 必须保证采样数据的带宽小于奈奎斯特速率。为了测量更高的频率, 必须采用更高的采样频率。由式 (14) 知:频谱的分辨率由采样数据的数量多少决定的, 取样越多, 分辨率越大。而由式 (15) 知:采样频率fs, 采样周期数n, 样本大小m, 频率分辨率fres等都在一个动态变换平衡中, 为了得到准确的测量值, 必须合理设置这些参数。 2.2 CZT变换的实际应用 CZT变换方法在有些高端混合信号测试系统中得到了深入的应用, 其主要运算是基于DSP完成的。一般在测试系统中都有一个永久磁盘缓冲器用来存储由采样数据构成的有限序列, 但该每次存储器只能存储一组采样数据, 当需要对另外一组采样数据进行处理时, 需要将存储器清空, 因此对于一组数据序列进行CZT运算要比对多组数据序列进行CZT变换快的多。 在测试系统中CZT算公式可用下式表示为: 其中:X (n) , Y (n) 为有限序列 W (k) 为缩放因数 CZT运算按照下列顺序进行: (1) 根据采样数列长度计算L值;可用下列程序完成: (2) 测试系统中有专用DSP缓冲器用来存储采样数列, 可用下列程序来设置DSP: (3) 将采样数据X (n) 及其相关序列Y (n) 存入缓冲器并补上零值点变为L点序列, 分别执行FFT变换后相乘, 计算结果进行反傅里叶变换后放入存储器中。 (4) 缩放因数可通过调用g e n e r a t e_coefficients (N, L, &APV, &APWn) 语句直接完成。 (5) 在DSP缓冲器内进行最终结果的计算。 2.3 CZT变换的运算结果仿真 对一输入信号x (t) =cos (2π123.3t+10π/180) , 用1024Hz的采样频率采集210点, 即1024点。图1和图2分别为利用FFT和CZT计算的频谱的幅值。由图中可以看到, 用CZT计算时频率分辨率提高了十倍, 很好地反映了信号的频谱分布。 3 结语 在现代测试系统领域内, 为了解决傅里叶变换对采样数据长度及运算时间方面的缺点, 提出了运用CZT变换对数据进行处理的算法。对任意长度的有限序列, 该算法不仅减少了运算量和运算时间, 通过合理的设置, 还可获得最理想的采样速率、采样大小及分辨率, 可最大程度满足量化生产需要。 参考文献 [1]程佩青.数字信号处理教程[M].北京:清华大学出版社, 2007. [2]冷建华.傅里叶变换[M].北京:清华大学出版社, 2007. [3]席德勋.现代电子技术[M].北京:高等教育出版社, 1999. 数据挖掘 (Data Mining, DM) 就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中, 提取隐含在其中的、人们事先不知道的, 但又是潜在有用的信息和知识的过程。在数据挖掘技术的发展过程中, 统计方法具有重要的作用和地位, 而回归分析在统计分析中应用最为广泛, 回归分析的主要作用是寻找两个或两个以上的变量之间的相互关系, 利用这种关系可以做描述、控制、预测等工作, 在回归分析技术中, 最为基础的是一元线性回归技术。 2 一元线性回归数据挖掘技术与参数估计 一般地, 设变量x与y适合线性回归模型: undefined 对x和y进行观测实验, 得到n组数据 (x1, y1) , (x2, y2) , , (xn, yn) ;利用最小二乘原理, 可求得: undefined 其中, undefined, 由上面公式可得到一元线性回归模型undefined。 当然利用这些数据还可以做模型的拟合程度、回归模型的显著性检验、回归系数的显著性检验等。 3 一元线性回归数据挖掘及R语言实现举例 考察温度对产量的影响, 测得10组数据, 如下表所示: 试给出x与y的散点图, 并建立x与y之间的回归方程式, 对其回归方程进行显著性检验, 并预测x=42℃时产量的估计值及预测区间 (置信水平为95%) 。 解:运行R程序, 摘要:统计方法有成熟的数学基础, 可以很好地对数据进行解释, 在数据挖掘中有着大量的运用;本文简单探讨了线性回归分析技术在数据挖掘中的应用及R语言实现。 关键词:函数型数据,函数型线性回归模型,协变量,响应变量 函数型数据, 具有一般函数所具有的特征, 可以对其进行函数分析和运算, 例如对其进行求导或积分运算, 以便后续的分析与讨论。对于函数型数据而言, 在相应的坐标系中, 每一个样本的数据都可表征为函数图像, 可能光滑, 也可能不光滑。样本在每一个属性上的取值都是关于某个自变量的一个函数, 也就是说, 样本在属性上的取值不再像传统的多元统计分析中处理的数据都是样本在属性上的离散取值, 而是一个带有过程性的数据。对于由样本得到的数据, 由于其一般都是离散的, 因而在进行函数型数据分析之前, 首先要将离散的样本数据转换成函数型数据。在得到函数型数据后, 一般需要与另外的研究对象结合起来分析, 此时就需要用到回归分析。 在进行回归分析时, 常用经典回归模型, 比如线性回归模型。但线性回归模型可能在一些统计学研究中的效果不是很好, 例如当因变量是一条曲线的数字化采样点时, 或数据之间的线性关系不明显时, 线性回归模型将不能很好地反映数据之间的关系。此时, 可利用函数型数据分析的方法, 建立函数型线性回归模型来分析求解。根据数据的形式, 函数型线性回归模型可归纳为如下三种类型: 一、协变量是标量, 响应变量是函数型数据, 其形式为: 对于此种函数型线性回归模型, 由于协变量是非函数型的, 故在具体的计算时, 可借助于多元线性回归模型的求解方法, 即利用最小二乘法得到的估计值, 具体如下: 其中, 通过上述计算公式, 可得到关于时间t的回归系数函数, 可利用the sum of squares function (SSE) , the squared multiple correlation function (R2) 和the F-ratio function (F-ratio) 等分析和检验结果, 可判断这个函数型线性回归模型能否很好地反映数据之间的关系。 二、协变量是函数型数据, 响应变量是标量, 其形式为: 三、协变量和响应变量都是函数型数据, 其形式为: 由此建立了三类函数型线性回归模型, 在针对不同的数据类型时, 可选择与此对应的函数型线性回归模型来分析, 求解。 参考文献 [1]J.O.Ramsay, B.W.Silverman.Functional Data Analysis (Second Edition) [M].北京:科学出版社, 2006. [2]严明义.函数性数据的统计分析:思想、方法和应用[J].统计研究, 2007, 2:87-94.非线性数据 第3篇
非线性数据 第4篇
非线性数据 第5篇
非线性数据 第6篇
线性调频Z变换在数据处理中的应用 第7篇
非线性数据 第8篇
非线性数据 第9篇
非线性数据范文
声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。如若本站内容侵犯了原著者的合法权益,可联系本站删除。