电脑桌面
添加盘古文库-分享文档发现价值到电脑桌面
安装后可以在桌面快捷访问

非参数估计法范文

来源:莲生三十二作者:开心麻花2025-09-191

非参数估计法范文(精选8篇)

非参数估计法 第1篇

视频目标空域定位是智能视频监控的一项关键核心技术, 即在检测到视频目标区域后, 需进一步定位视频目标, 以获取视频目标的空域位置信息。视频目标定位是在目标运动检测基础上的进一步处理, 定位的结果可直接应用于目标跟踪、识别及编码等上层技术环节。目前, 视频运动目标定位方法主要有基于区域生长的方法、水平垂直投影的方法以及基于模式分类的方法。基于区域生长的定位方法不适用于待定位目标空域连通特性较差的应用场合。水平垂直投影的方法不适用于水平、垂直方向重叠的多目标定位场合。基于模式分类的定位方法主要是基于数据聚类的方法, 如k-均值聚类、模糊C均值聚类及减法聚类 (Subtractive Clustering) 等。孔万增[1]和孙志海[2,3]分别将减法聚类算法用于图像人脸和视频目标的定位, 其实验结果表明减法聚类算法很适用于目标区域空域连通性较差的目标定位场合。减法聚类算法是Chiu[4]提出的一种基于密度值指标的模糊聚类算法。减法聚类算法定义了一个密度指标函数对所有样本点的密度指标进行估计, 即某个样本点的密度指标为其他样本对该点的密度指标贡献的总和, 并选择具有最高密度指标的样本点为第一个聚类中心, 然后通过重复修正每个样本点的密度指标, 直至产生足够多的聚类中心[5]。从这里我们可以发现减法聚类算法在对样本点密度指标的估计上, 实际上属于采用特定核函数的非参数核密度估计方法, 即减法聚类算法在样本点密度指标的估计方法上可做进一步推广。近几年, 随着计算机处理能力的提高, 数据库的广泛应用、数据挖掘技术的兴起以及目标跟踪技术的流行, 非参数核密度估计技术逐步得到研究人员的青睐[6,7]。本文引入非参数核密度估计技术, 将基于减法聚类的目标定位技术做进一步推广, 结合视频目标空域定位技术的特点, 给出了一种更广义的基于非参数核密度估计的视频目标空域定位技术, 并通过丰富的实验结果对定位方法进行验证。

1 非参数核密度估计

核密度估计 (Kernel Density Estimation) 是由统计直方图理论演化而来的。核密度估计采用核函数通过对窗口中的数据点进行加权平均得到数据点的概率密度分布规律。设一维空间n个数据点 (x1, x2, , nx) 为取值于R的独立分布随机变量, 其所服从的分布密度函数为p (x) , 则在任意点x (x∈R) 处的一种核密度估计为[7,8,9]

式中:K (⋅) 称为核函数 (Kernel Function) , n为样本容量, h称为带宽 (Bandwidth) 或光滑参数, 为预先给定的正数。式 (1) 可以理解为:核密度估计将以每个采样点为中心的局部函数的加权平均效果作为该数据点概率密度函数的估计值。K (⋅) 通常选为以0为中心的对称、单峰、有限局部支撑的概率密度函数, 如表1所示的核函数。从式 (1) 可以看出核函数是一种权函数。核密度估计利用数据点ix到x的距离 (xix) 来决定ix在估计点x的密度时所起的作用。为保证pˆn (x) 作为概率密度函数的合理性, 即保证其值非负, 且要保证积分结果为1。这一点可通过要求核函数K (x) 满足下列性质而得到保证, 即K (x) ≥0, ∫K (x) du=1, 则有:

即积分条件∫K (x) du=1使得pˆn (⋅) 是一个积分为1的概率密度。

然而, 非参数核密度估计在实际应用中, 往往需考虑多维空间的核密度估计问题。现在假定m维空间n个数据点 (x1, x2, , xn) , 其中xi= (xi1, , xim) T (i=, 1, n) 。将一维核密度估计进一步推广, 利用乘积核及对称正定对角型带宽矩阵, 则m维核密度估计可以表示为

2 非参数核密度估计视频目标空域定位

图1给出了本文非参数核密度估计视频目标空域定位流程图。

设m维空间n个数据点 (x1, x2, , xn) 。由于每个数据点都可视为目标中心的候选点, 因此, 将数据点ix处的核密度指标定义为

借鉴Chiu减法聚类算法的思想[4,5], 在计算每个数据点的核密度指标后, 选择具有最高密度指标的数据点为第一个目标中心, 令x1c为第一个目标中心, 1cP为相应的核密度指标, 则每个数据点ix的核密度指标用式 (5) 做进一步修正:

这里hbj (j=, 1, 2, m) 为正常数, 定义了一个核密度值显著衰减的邻域, 一般hbj=ηhaj, η为大于1的正常数, 这样可避免出现距离很近的目标中心。在修正了每个数据点核密度指标后, 将具有最大核密度指标的数据点视为视频运动目标的中心, 该过程不断迭代, 直至找出所有有效的视频运动目标中心, 并以Pi<ε⋅P1c (0<ε) 1作为迭代终止的条件。

在视频运动目标定位场合, 视频运动目标的核密度估计值在有效邻域内常常与数据点的数量和密集程度成一定的正比特性, 根据该特点, 可以对用于描述视频目标的带宽参数做一定的修正, 使其随待定位目标中心密度值的降低而减小。设获得的首个目标的最大核密度值数据点为1x, 对应核函数的带宽记为h1j, cP1为相应的密度值, 则第i个用于描述视频目标的带宽取值hij可修正为[10]:hij= (Pi/P1c) ⋅h1j。

3 实验结果与分析

为进一步说明本文所给出的基于非参数核密度估计的视频运动目标空域定位算法的有效性。本文在CPU为Intel (R) Core (TM) 2 Duo E8400@3.00 GHz, 内存为2.99 GHz 3.25 GB, 操作系统为Windows XP SP2的PC机上, 联合使用VC++6.0及Matlab7.0编程环境, 对不同视频序列的运动目标进行了定位实验。实验共用到3组视频测试序列:Walk By Shop1front、One Leave Shop Reenter1cor (下载地址http://groups.inf.ed.ac.uk/vision/CAVIAR/CAVIARDATA1/, 大小均为384288) 和Highway (下载地址http://cvrr.ucsd.edu/aton/shadow/, 大小为320240, 共500帧) 。

图2是本文算法实验平台示意图。本文所涉及的相关算法均在该平台开发, 编程风格统一。图2中三维数据曲线的显示, 为本人应用VC++6.0与Matlab混合编程技术的效果。

3.1 定位过程分析

图3给出了非参数核密度估计视频运动目标空域定位的过程。定位时选用Triangle核函数, 带宽为4044, η取1.2, ε值为0.5。图3 (a) 是Highway视频序列第114帧的视频图像, 图3 (b) 是采用文献[11]的方法进行目标运动检测所获得的二值图。显而易见, 我们可以观察到图3 (b) 中有三个车辆目标, 黑色前景点即为进行核密度估计的样本点。图3 (c) 给出了对图3 (b) 样本点的目标定位效果, 含有定位顺序、密度估计值及密度中心位置坐标 (pi, x, y) , 箭头方向示意了目标定位的先后顺序 (abc) 。图3 (d) 为图3 (b) 中样本点密度值分布的等高线示意图。图3 (e) ~ (h) 为目标定位过程中样本密度值分布的修正过程。

3.2 不同核函数定位效果分析

本文所阐述的是一种基于核密度估计的目标定位技术。为说明核函数对定位效果的影响, 图4和表2分别给出了核函数带宽hxhy取定30130时不同核函数的定位效果及定位耗时。图4 (a) 为采用文献[11]方法对Walk By Shop1front视频序列行人目标运动检测得到的二值图, 黑点代表前景样本点, 样本点共有2 438点。图4 (b) ~ (i) 从左至右分别对应于Uniform、Triangle、Epanechikov、Biweight、Triweight、Gauss、Cosinus及Double Exponential核函数的定位效果。图4 (b) 的定位效果与图4 (c) ~ (i) 的定位效果大为不同, 代表目标的椭圆严重偏离了行人目标的中心, 造成这个问题的原因是由于Uniform核函数本身是一个常数项, 导致密度分布峰值特性不明显, 且存在多个等值的峰值点, 故在获取最大密度中心时容易导致偏差。然而, 除Uniform核函数以外的其余核函数则均能获得较为理想的定位效果。

对应于图4的定位效果, 表2给出了不同核函数的定位耗时及具有最大核密度指标数据点的位置坐标 (x, y) , 其中, 耗时数据为在程序中调用C语言库函数time Get Time () 函数求取算法时间差而获得。在计算算法耗时时, 未包含Matlab引擎的调用环节。从表2可以看出, Uniform平均处理耗时最低, Double Exponential核函数的平均处理耗时最高。Triweight核函数平均处理耗时高于Biweight, Biweight核函数平均处理耗时高于Epanechikov, Epanechikov核函数平均处理耗时高于Triangle。由于Triangle核函数属于一次函数, 故平均处理耗时比Epanechikov、Biweight和Triweight核函数低。虽然Uniform核函数平均处理耗时最少, 但图4的实验结果表明Uniform核函数在定位效果上要略逊色于表2中的其他核函数。因此, 对耗时比较在乎的定位场合, 在核函数的选择上, Triangle核函数则具有一定的优势。特别在一些运算能力有限的嵌入式应用场合, Triangle核函数的优势更加明显。

3.3 不同定位方法定位效果比较

为进一步说明本文基于核函数密度估计的目标定位方法的性能。图5示意了几种不同定位方法的比较效果。

图5 (a) 为采用文献[11]的方法对One Leave Shop Reenter1cor视频序列第149帧进行行人检测所获得的二值图, 黑色点为前景样本点, 样本点数共1 149个。图5 (b) 为文献[3]的定位效果, 定位耗时约672 ms。图5 (c) 为区域生长法的定位效果, 耗时约47 ms。图5 (d) 为本文方法的定位效果, 耗时约594 ms, 其中核函数为Triangle, 带宽取30130, η取1.5, ε取0.8。从图5中的定位效果可以看出, 本文方法在定位准确度上要优于文献[3]的方法以及基于区域生长法。虽然基于区域生长的定位方法在处理耗时上更具优势, 但对于二值图像空域连通特性比较差的应用场合, 区域生长法容易引发重复定位的问题 (如图5 (c) 所示的情况) 。图6为本文方法对One Leave Shop Reenter1cor视频序列第148帧、第151帧、第154帧、第160帧和第174帧行人目标的定位效果。

3.4 带宽对定位的影响

为说明带宽h对定位结果的影响。图7 (a) ~ (d) 分别给出了水平和垂直方向带宽hxhy分别取610, 1015, 3035及4450时图3 (b) 前景样本点的核密度指标分布图。图7 (e) ~ (h) 则为相应的目标定位效果。从图7 (a) 中可以看出, 带宽选择610时, 密度分布呈多峰特性。当带宽选择1015时多峰分布则有明显改善。带宽选择3035和4450时则每个目标均对应单峰分布。从图7 (a) ~ (d) 中还可以看出, 带宽的选择还会对核密度估计值的大小产生影响, 直接体现在密度分布的密度峰值的高度。这里为了便于观察样本密度值的分布, 对图7 (a) ~ (d) 中的纵轴尺度进行了调整, 因此图7 (a) ~ (d) 中的纵轴尺度并不完全相同。可见, 核函数带宽h既影响样本密度分布峰值的大小, 又影响密度分布的光滑性。因此, 可以说如何选择合适的带宽, 是核密度估计法能够成功应用的关键[8]。在带宽的选择上, 文献[9]总结了几种带宽选择的方法, 如“交叉验证法 (Cross-validation) ”、“直接插入法 (Direct plug-in) ”、“在各个局部取不同带宽”或“估计出一个光滑的带宽函数”等。文献[7]和[8]给出了一种从理论上求最优带宽的方法。

4 结论

本文将减法聚类视频目标定位技术做了进一步推广, 提出了一种基于非参数核密度估计的视频运动目标定位技术。该技术先对代表视频运动目标的前景样本点进行非参数核密度估计, 然后通过修正样本点的密度估计值, 逐步实现对视频运行目标的空域定位。本文方法的特点是可以根据具体的应用场合灵活选择核函数估计样本点的密度值分布。本文方法与原减法聚类定位方法相比, 虽然本文方法在样本点密度值估计方面更具优势, 然而, 本文方法与减法聚类定位方法类似的是需要人工指定目标带宽参数, 这也是本文需进一步深入研究的问题。同时, 由于篇幅的原因, 本文未对目标的尺度、方向做更深入讨论, 但在这方面, 本文的方法可结合文献[2]的方法实现对视频运动目标的精确定位。

摘要:针对智能视频监控场合对视频运动目标定位的需求, 本文提出了一种基于非参数核密度估计的视频运动目标空域定位技术。该技术先对代表视频运动目标的前景样本点进行非参数核密度估计, 选择具有最高密度指标的样本点为第一个目标中心, 然后通过修正样本点的密度估计值, 逐步实现对视频运动目标的空域定位。本文的方法是减法聚类视频运动目标定位技术的进一步推广。推广后的定位方法, 可根据具体的目标定位场合, 灵活选择核函数对样本点进行核密度估计。实验表明, 本文方法具有良好定位效果, 同时, 在样本点的密度估计上更具灵活性。

关键词:非参数密度估计,核密度估计,视频目标定位,视频目标检测

参考文献

[1]KONG Wan-zeng, ZHU Shan-an.Multi-face detection based on downsampling and modified subtractive clustering for color images[J].Journal of Zhejiang University Science:A (S1673-1581) , 2007, 8 (1) :72-78.

[2]孙志海, 孔万增, 朱善安.尺度方向自适应的减法聚类视频运动目标定位[J].光电工程, 2010, 37 (1) :37-42.SUN Zhi-hai, KONG Wan-zeng, ZHU Shan-an.Scale and direction adaptive locating of video moving objects with subtractive clustering[J].Opto-Electronic Engineering, 2010, 37 (1) :37-42.

[3]孙志海, 孔万增, 朱善安.基于减法聚类算法的视频运动目标定位[J].光电工程, 2008, 35 (7) :12-16.SUN Zhi-hai, KONG Wan-zeng, ZHU Shan-an.Moving object location in video sequences based on subtractive clustering algorithm[J].Opto-Electronic Engineering, 2008, 35 (7) :12-16.

[4]Chiu S L.Fuzzy model identification based on cluster estimation[J].Intelligent Fuzzy Systems (S1064-1246) , 1994, 2:267-278.

[5]张智星.神经-模糊和软计算[M].西安:西安交通大学出版社, 2000:305-309.ZHANG Zhi-xing.Neuro-fuzzy and soft computing[M].Xi’an:Xi’an Jiaotong University Press, 2000:305-309.

[6]韩彦芳.机器视觉中的聚类检测新方法[D].上海:上海交通大学, 2006:54-55.HAN Yan-fang.Novel clustering detection in machine vision[D].Shanghai:Shanghai Jiao Tong University, 2006:54-55.

[7]赵渊, 张夏菲, 周家启.电网可靠性评估的非参数多变量核密度估计负荷模型研究[J].中国电机工程学报, 2009, 29 (31) :27-33.ZHAO Yuan, ZHANG Xia-fei, ZHOU Jia-qi.Load modeling utilizing nonparametric and multivariate kernel density estimation in bulk power system reliability evaluation[J].Proceedings of the CSEE, 2009, 29 (31) :27-33.

[8]王星.非参数统计[M].北京:中国人民大学出版社, 2005:213-219.

[9]吴喜之.非参数统计[M].北京:中国统计出版社, 2006:187-193.

[10]孙志海, 孔万增, 朱善安.视频目标定位的减法聚类改进算法[J].浙江大学学报:工学版, 2010, 44 (3) :458-462.SUN Zhi-hai, KONG Wan-zeng, ZHU Shan-an.Improved algorithm of subtractive clustering for object location in video sequences[J].Journal of Zhejiang University:Engineer Science, 2010, 44 (3) :458-462.

非参数估计法 第2篇

参数估计法在运载火箭动力系统故障诊断中的应用

文中研究了参数估计的.方法在运载火箭动力系统突发故障诊断中的应用.通过建立运载火箭的数学模型,成功应用基于强跟踪滤波器的状态和参数联合估计方法,实现了对运载火箭推力参数的正确估计.

作 者:符文星 朱苏朋 阎杰 陈士橹 FU Wen-xing ZHU Su-peng YAN Jie CHEN Shi-lu 作者单位:西北工业大学航天工程学院,西安,710072刊 名:弹箭与制导学报 PKU英文刊名:JOURNAL OF PROJECTILES, ROCKETS, MISSILES AND GUIDANCE年,卷(期):27(1)分类号:V475.1关键词:故障诊断 参数估计 强跟踪滤波器 运载火箭

非参数估计法 第3篇

关键词:工业化中级阶段;R&D;非参数估计

1.引言

R&D投资的存在机制和发展机制均具有普遍性和发展性:不管是“技术领先型”的美国、“技术追赶型”的日本、“跨越式发展”的韩国,还是“工业化中级阶段”的中国,其R&D投资行为普遍存在,虽然发生的时间不一样,但是其发生发展的动态演化路径是有规律的。

2.工业化中级阶段划分

2.1划分依据

根据美国经济学家H·钱纳里的划分,按照1970年美元计算,当人均GDP位于140~280美元/人之间时,该经济体处于初级产品生产阶段;当人均GDP位于280~2100美元/人时,该经济体处于工业化阶段,其中:280~560美元为工业化初级阶段,560~1120美元为工业化中级阶段,1120~2100美元为工业化高级阶段;当人均GDP超出2100美元/人时,该经济体则进入了发达经济发展阶段。按照该划分,我国1983年才开始进入工业化初级阶段,而美国人均GDP早在1970年以前就已经超出2100美元,领先成为发达经济体之一。

根据世界银行对高、中、低收入国家的划分标准(按1980年美元计算),人均国民总收入在745美元以下的为低收入国家,746~2975美元为中下收入国家,2976~9205美元为中上收入国家,9206美元以上为高收入国家。

2.2国际比较

本文按1980年美元计算,通过对1980~2008年的人均GDP的整理发现(见表1),中国1989年之前属于低收入国家,1989-2002年属于中下收入国家,2003年开始步入中上收入国家。而美国1978年的人均GDP(10225USD)就已经超出9206美元,成为高收入国家;日本也早在1981年实现人均GDP9951USD,从中上收入国家转变为高收入国家,其增长率变化类似于美国,这与日本施行的"追赶式战略"可能相关;韩国经济起步慢些,1981年人均GDP(3140USD)才突破中下收入上限,但增长很快,于1991年(人均GDP9573USD)步入高收入之列,年增长速度超过美、日等发达国家(见表2);印度不仅发展水平低,而且增长缓慢,自从1988年(人均GDP746.6USD)摆脱低收入线后,至今仍处于中下收入行列。

2.3一般规律

国际通行指标研发强度(R&D/GDP),消除了各国币制和通货膨胀的影响,具有较强的国际可比性。 根据国际经验规律及部分学者(曾国屏、谭文华,03,05)的检验,在工业化初级阶段,R&D强度一般不超过1.15%;工业化中级阶段,R&D强度约为1.15%-2.15%;工业化高级阶段;R&D强度一般大于2.15%。他们还指出,工业化中级阶段中的国家R&D强度增长最快。以此为依据,本文首先通过相关数据进一步验证该结论(见表2和图1)。

3.工业化中级阶段的R&D投资演变规律

为了进一步验证上述国际一般规律,并且便于分析各国间的差别即特殊发展演变规律,下面运用非参数估计方法(R语言软件工具)分析工业化进程中尤其是工业化中级阶段的韩国R&D强度演变规律,并且对同样处于工业化中级阶段的中国数据进行检验。

3.1韩国工业化进程中的R&D投资演变

3.1.1散点图

选取韩国1980~2007年(涵盖工业化中级阶段)的R&D/GDP和人均GDP两个指标,从两者的散点图(图2)可看出,研发强度随着工业化发展水平的提高而不断增长,且呈"先缓慢增长,再快速增长,最后基本稳定"的发展趋势,这与作者图1总结的规律一致。

注:横坐标为韩国人均GDP,单位为“美元/人”;纵坐标为韩国研发强度(R&D/GDP),单位为(%),数据来源同表2。

3.2 一元线性OLS估计

假设原模型为yk=+ .xk+ ,运用一元线性OLS估计方法,检验研发强度和人均GDP间的线性关系。(yk:korea r&d/gdp韩国研发强度;xk:korea per gdp韩国人均GDP)

程序和结果如下:

ols <- lm(yk~ xk)

summary(ols)

Call:

lm(formula = yk ~ xk)

Residuals:

Min 1Q Median 3QMax

-0.67880 -0.151390.050450.159020.50236

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 9.193e-011.198e-01 7.672 8.74e-08 ***

xk9.449e-058.062e-0611.721 3.53e-11 ***

---Signif. codes:0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.2737 on 23 degrees of freedom

Multiple R-squared: 0.8566, Adjusted R-squared: 0.8504

F-statistic: 137.4 on 1 and 23 DF,p-value: 3.53e-11

结果显示,一元线性方程的R-squared为 0.8566,说明研发强度和人均GDP之间存在显著的相关关系,但一元线性关系不显著,因此我们有必要运用非参数估计方法,描绘出二者的非线性关系。

3.3 三次方样条非参数估计

为了描绘出研发强度和人均GDP之间的非线性增长规律,我们运用R语言描绘出两指标数据的演变图像。过程为:模型矩阵 →帽子矩阵 →样条非参数估计→样条估计图像。

根据上述过程,先将函数形式写成如下的形式:

yk= f(xk) +

(yk:korea r&d/gdp韩国研发强度; xk:korea per gdp韩国人均GDP)

R程序设计如下:

xksj <-xk - min(xk)

xksj <- xksj/max(xksj)

B <- function(x,z)

{ ((z-0.5)^2-1/12)*((x-0.5)^2-1/12)/4-((abs(x-z)-0.5)^4-(abs(x-z)-0.5)^2/2 + 7/240)/24}

spl.X <- function(x, xk)

{ q <- length(xk)+2

n <- length(x)

X <- matrix(1,n,q)

X[,2] <- x

X[,3:q] <- outer(x,xk,FUN=B)

X}

xn <- (1:4)/5

X <- spl.X(xksj,xn)

m <- lm(yk~(-1)+ X)

ind <- order(xksj)

xord <- xksj[ind]

yfit <- m$fit[ind]

plot(xksj, yk, pch=".", ylab="korea r&d/gdp ", xlab="korea per gdp ", bty="l")

lines(xord,yfit)

从程序运行结果(图3),可看出两指标间的非线性增长规律基本与前文总结的一致。

3.4中国工业化中级阶段的R&D投资增长

同样,选取中国1987~2007年(包含工业化中级阶段起点)的R&D/GDP和人均GDP两个指标,运用R程序描绘出中国工业化中级阶段的R&D投资增长规律(图4)。

对比图3(韩国工业化进程中的R&D投资增长一般规律)和图4(中国工业化中级阶段的R&D投资演变),中韩两国的R&D投资增长趋势与前文结论(图2)一致,可推断,R&D投资在工业化进程中遵循着一般规律,发达经济体在研发创新上的历史经验对我国具有借鉴意义,我国应学习韩国等跨越式发展国家,在工业化中级阶段大力投入R&D,促使R&D投资快速发展。

参考文献

[1]王延伟等.我国发展研发产业SWOT分析[J]科学管理研究.2010.05

[2]肖 敏等.我国R&D强度变化趋势及稳定增长研究[J]科学学与科学技术管理.2009.08

CAPM模型中β系数的非参数估计 第4篇

关键词:CAPM,β系数,可变系数回归模型,局部加权最小二乘估计

一、理论综述

资产定价问题是近几十年来西方金融理论中发展最快的一个领域。投资组合理论由亨利·马柯维茨 (H.M.Markovitz) 于1952年创立, 形成了现代资产定价理论。它把投资者的投资选择问题系统阐述为不确定性条件下投资者效用最大化问题, 这标志着现代证券理论研究进入了定量分析阶段。马柯维茨的研究在理论上解决了证券组合的选择问题, 但因其需要巨大的计算量而难以得到广泛应用。1963年, 威廉·夏普 (Sharpe) 提出了简化形式的计算方法, 即单指数模型。1965年前后, Sharp等人提出著名的资本资产定价模型 (CAPM) , 使投资组合理论应用于整个经济学领域。这一模型在现实的投资组合绩效、证券估价、确定资本预算及管理公共事业股票中得到了普遍应用。

在一组严格的假定下, CAPM模型可简单地表达为:

其中ri表示证券或组合i的期望收益率, αi表示独立于市场部分的收益率, rM表示市场组合期望收益率, βi为证券或组合的系统风险系数, εi为随机误差。

然而, 大量的实证研究又发现一些CAPM无法解释的异常现象, 诸如公司的规模、赢利—价格比、现金流量—价格比、历史销售增长率、历史收益率表现等因素都会对股票的期望收益率产生一定的影响。针对证券收益受多种因素的影响, 马歇尔 (Marshell) 和布努姆 (Blume) 等人又提出了多因素模型。

多因素模型 (MPM) 由于具有较强的解释性而成为目前投资实践中的主导模型。从统计的观点看, 多因素模型通过许多因子来确定证券的价格, 所考虑因素的范围较广。与CAPM模型仅从证券市场本身的历史来研究股价不同, 多因素模型把证券的价格与通货膨胀率、失业率、工业生产总值、利率水平、汇率水平等经济因素联系起来, 从而使模型能更好地反应现实情况。

多因素模型的简洁表达如下:

其中:Ij (j=1, 2, …, p) 表示影响收益率的第j个因素, βij表示证券或组合i对因素Ij的敏感度, 其他符号表示同上。可以看出, 多因素模型认为股票的超额收益由两部分组成, 即由各因素作用影响的收益部分和无法由各因素解释的收益部分。

1976年, 罗斯 (R oss) 通过放松有效市场的假设, 提出了套利定价理论 (APT) , 对CAPM模型作了进一步修订, 其重要特性是合理且简单易懂。在均衡状态下, 所有被选择的证券组合来自被考察的资产集并满足无风险就无收益的条件, 而且对其风险性资产的定价不依赖于有效市场证券组合的选择。它假设任一证券的收益率是由k个因素的线性函数决定的, 其方程为:

其中:Eri是第i种资产的期望收益率, Fj (j=1, 2, …, k) 表示第j种因素指数的收益, βij是第i种资产的收益对第j个因素的灵敏度, εi是第i种资产均值为零的特殊收益。

尽管上述三大资产定价理论在经济解释和应用上有很大区别, 但在数学处理上却有共同之处, 即假定证券期望收益与系数β值之间存在严格的线性关系, 并使用一般线性回归方法对其系数进行估计。然而, 实证检验表明, 证券期望收益与β值之间是否存在严格的线性关系仍然值得怀疑。Black等以及Fama和MecBeth对美国证券市场的实证研究发现, 证券的期望收益与β之间确实存在一种正的线性关系, 然而在1992年Fama和French采用与以前不同的样本数据研究发现, 证券的期望收益与他们所设计的β之间几乎不存在相关性。陈浪南和屈文洲针对上海证券市场的实证研究表明, β对股票期望收益的解释能力并不是很强。

很显然, 假如实际中证券期望收益与β值之间不存在严格的线性关系时, 使用上面的一般线性回归方法来估计系数β, 必然会导致结果的不正确。本文针对这种不足, 提出了一个可变系数的回归模型, 并使用局部加权最小二乘估计法来估计系数β, 使得估计结果更为准确, 能够更加适应数据自身的变化规律, 也更贴近于数据的实际要求。

二、可变系数回归模型的提出

首先来回顾一般采用的线性回归方法。为了便于数学表达, 可以把上述三大定价定理抽象为统一的数学模型。

定义1 (一般线性回归模型) :假定对某种证券或组合有n组历史观测数据 (Yi, xi) , 其中Yi表示收益率, xi= (xi1, xi2, …, xip) T表示影响该证券或组合收益率的因素, 对于随机变量Y1, Y2, …, Yn一般的线性回归模型如下:

(Ⅰ) Y1, Y2, …, Yn相互独立, 并且Yi~N (μi, σ2) , i=1, 2, …, n

其中xi0=1;μi=E (Yi) , i=1, 2, …, n。

通常情况下, 可以用最小二乘方法来对该模型进行估计。

然而, 若实际数据中, 证券期望收益与β值之间不存在严格的线性关系, 那么这种假定必然导致模型不正确。于是, 我们提出下面的改进方法。

定义2 (可变系数回归模型) :假定对某种证券或组合在不同的观测“位置”Vi, 有n组历史观测数据 (Yi, xi) , i=1, 2, …, n, 对于随机变量Y1, Y2, …, Yn在“位置”V点的可变系数回归模型定义如下:

(Ⅰ) Y1, Y2, …, Yn相互独立, 并且Yi~N (μi, σ2) , i=1, 2, …, n

其中V∈D, D是一个带有距离函数d (·, ·) 的m维度量空间, V可以解释为观测数据x所对应的“位置”, 比如:当V=t为一维时间标量时, 就表示按时间顺序观测到的数据x, 当V= (x, y, z) 为三维向量时, 就可以表示为在空间地理位置 (x, y, z) 上观测到数据x, 当V= (x, y, z, t) 为四维空间时, 则表示t时刻在空间地理位置 (x, y, z) 上观测到数据x, 如此等等。D中的距离d (·, ·) 可以根据问题的实际背景具体化, 除了通常使用的欧氏距离之外, 它还可以取作两观测点之间的社会环境、经济环境、自然环境的相似性度量等等。在此基础上, 我们的模型可看成是随观测数据x的“位置”V变化而变化模型系数的变系数回归模型。β0 (·) , β1 (·) , …, βp (·) 是p+1个定义在空间D的某一子集上的函数。

尽管可变系数线性模型形式上看起来很具体, 但它实际包含了许多熟知的线性回归模型作为其特例, 如:

(Ⅰ) 如果βj (V) =βj, j=0, 1, …, p是p+1个未知常数, 那么模型 (1) 便是一般线性回归模型。

(Ⅱ) 取D奂RP, V=x且β1 (x) =…=βp (x) =0, 则模型 (1) 便为μ=β0 (x) ;由于β0 (x) 是任意函数, 所以这正是非参数回归模型。

(III) 如果取D=[0, +∞) , V=t是第t个观测值在被获得的时间点, 那么模型 (1) 便为:μt=β0 (t) +β1 (t) xt1+…+βp (t) xtp, t=t1, t2, …, tn。这个模型便是熟知的动态线性回归模型。

因此, 可变系数回归模型, 是原来的一般线性回归模型的推广。对于模型 (1) , 可以通过下面的局部加权最小二乘方法来估计系数。

三、可变系数回归模型的估计

利用非参数回归中局部拟合的思想, 通过对对数似然函数施加适当的局部权, 再利用极大似然原理得到所关心的局部估计量, 适合非参数回归拟合问题。这种思想自提出以后, 目前已得到广泛的研究, 本文正是利用这种思想来进行局部加权估计的。

一般地, 给定任何一点V∈D, 这里x T= (x1, x2, …, xp) ∈M, 对所有的观测点 (Yi;xi1, xi2, …xin) i=1, 2, …, n, 它们均提供了μ=EY在给定点V的信息, 这些信息可用以估计系数β0 (V) , β1 (V) , …, βp (V) , 然而不同的观测值对在给定点处V的系数估计有不同的重要性, 这种重要程度可以通过一组权来对相应似然函数中的各项作调整。

设在给定点V处的一组权为:w1 (V) , w2 (V) , …, wn (V) , 其中第i个权wi (V) , 相对应于第i个观测数据 (Yi;xi1, xi2, …, xip) 。

对于模型 (1) , 不难求得 (yi, y2, …, yn) 的对数似然函数:

按照局部似然方法, 在给定点处V相应于权wi (V) , i=1, 2, …, n的局部加权似然函数 (为方便计, 仍记为lnL (β (V) ;y1, y2, …, yn) ) 为:

定义2对给定的点V∈D, 使 (3) 式达到最大值的β (V) 的值, 记为:称为β (V) 在给定点处V的局部加权最大似然估计量。

由于变系数回归模型的局部加权最大似然估计量的推导类似于一般线性回归模型的推导, 因此可以不加证明地给出如下结论。

定理1对于变系数回归模型 (1) , β (V) 在给定点V处的局部加权最大似然估计量由如下方程组来决定:

其中

定理2对于变系数回归模型 (1) , 假定对于任意点V∈D, 矩阵XTW1 (V) X的逆矩阵均存在, 那么β (V) 在给定点V处的局部加权最大似然估计量为:

并且, W1 (V) =diag (W1 (V) , W2 (V) , …Wn (V) ) 为n阶对角权矩阵。

证明过程如下:

由定理1, 可知似然方程为:

上式可表示为矩阵形式:

其中, β (V) = (β0 (V) , β1 (V) , …βp (V) ) T, 其他表示同上。

假定对于任意点V∈D, 矩阵XTW1 (V) X的逆矩阵均存在, 则在给定点V处的参数估计值可表示为:β赞 (V) ={XTW1 (V) X}-1XTW1 (V) Y。

特别地, 若对一切的1燮i燮n及任意点V∈D, 设定W1 (V) =1, 那么 (6) 式就变为:XTY=XTXβ。

此即我们熟知的一般线性回归模型的正则方程。

四、局部权系统的决定

1、Gauss局部权系统

如前所述, 对任意给定点V∈D, 第i个权值W1 (V) ; (i=1, 2, …, n) 反映了第i组观测xi= (xi1, xi2, …, xip) T及Yi对估计点V处的参数βk (V) ; (k=0, 1, …, p) 的重要性。一般来说, 距给定点V∈D较近的观测数据对V点处的参数估计影响应该较大, 而相距较远的观测数据对给定点V处的参数估计影响应该较小, 甚至为零。而在变系数广义线性模型中, 观测值xi= (xi1, xi2, …, xip) T以及x= (x1, x2, …, xp) T所对应的D中的点Vi和V之间的距离以d (Vi, V) 来度量。因此, 对于较小的d (Vi, V) 所对应的观测点, 我们赋予较大的权值, 反之, 对于较大的d (Vi, V) 所对应的观测点, 则赋予较小的权值。

下面采用Gauss局部权系统:

在给定点V∈D处, 以d (Vi, V) 的Gauss函数为该点的权, 即:

其中λ>0称为光滑参数。当λ坂0时, 只有在观测点V∈D处, 观测值xi权才为1, 其他各观测点的权值均趋于零。当λ坂∞, 对于一切i=1, 2, …, n均有Wi (V) 坂1, 这时, 参数β (V) 的局部加权最大似然估计即是通常的最大似然估计。

2、局部权系统中光滑参数的确定

光滑参数的确定问题是非参数回归中所研究的一个重要课题, 针对不同的光滑方法, 已经有各种各样的光滑参数确定方法。在此, 我们将利用交叉证实方法 (cross-validation) 来确定前面所给的局部权系统中的光滑参数λ的值。

由前面可知, 在每一给定点V处有观测值Yi

其中表示从估计过程中删除第i组观测值xi= (xi1, xi2, …, xip) T和Yi, 再通过前面的定理, 使用局部加权最小二乘法估计所得的Yi值。最后, 选择λ使得CV (λ0) =minCV (λ) , 则以λ0作为光滑参数的估计值。

五、结语

本文主要解决了如下问题。

第一, 实证表明, 资产定价模型中, 证券期望收益与系数β值之间未必存在严格的线性关系, 针对这种情形, 提出了可变系数回归模型替代原先的一般线性回归模型来估计系数β, 该模型放松了线性的假定, 使模型更适应实际数据的变化规律。

第二, 利用局部加权最小二乘估计方法对可变系数回归模型中的系数进行估计。

第三, 研究了模型中的局部权系统以及其中光滑参数的决定问题。

非参数估计法 第5篇

关键词:负荷特性,核密度估计,带宽

1 研究综述

电力负荷特性的分析预测, 作为研究、分析电力市场的基础性工作, 关系到电网的建设、电力的供应规划, 也是电力系统经济调度运行、制定调峰措施、缓解电力供应紧张局面的依据。过去通常只对电量作预测, 方法上多采用专家预测法、单耗法、弹性系数法等, 其它负荷特性指标的预测, 也多限于一般层面的统计分析法等, 对电力负荷变化的轨迹和结构并不十分清楚, 预测目标窄、精度相对低。随电力市场改革的推进, 一些专家开始积极探索, 象时间序列分析、灰色理论、神经网络、小波分析等先进工具被应用到负荷预测领域。在负荷特性预测实践中, 常遇到诸如预测目标系统的转折性变化、预测模型中自变量多重相关以及超短期负荷预测等问题, 缺乏行之有效的对应预测方法。

发达国家电力改革推行较早, 市场相对完备, 负荷特性分析工作开展得很好。早在1952年日本九大电力公司就联合组成了日本电力调查委员会, 是日本电力负荷调查、分析与预测的权威机构。在电力负荷特性指标的定义、解释和选取上, 不同于我国, 有相当的借鉴意义。在美国电力市场上, 发电公司、电网公司以及管理监督机构均做负荷预测。美国PJM电力市场上有一套独立完备的电力市场管理营运系统, PJM控制中心管理人员通常做短期 (10天) 电力负荷预测, 并引入天气因素, 有专门的负荷预测算法和子系统。比较而言, 我国电力负荷特性的统计分析工作开展得不够, 差距较大。2000年3月国家电力公司组织各网省电力公司全面系统收集有关负荷特性的资料, 并选取四个电网和八个城市进行了调研分析工作。但从结果来看有如下局限:①缺乏系统的负荷特性统计分析理论的指导。②各地负荷特性指标及其口径不一, 数据质量不高。③指标的构建仅从技术角度出发, 对效益的考虑不足。④引入了多影响因素, 但基本停留在定性分析层面。⑤负荷预测上方法单一, 多采用趋势预测法, 有的地区甚至是定性预测, 对影响因素的变化带来的影响考虑不足, 精度有待进一步提高。

2 实证分析

本文提出负荷概率特性的观点, 并以非参数回归估计方法, 度量、描述负荷特性影响因素与负荷特性变化间的非线性的复杂关系, 显著地提高了孤寂的精度并构建负荷概率特性指标。

实际的电力负荷p是连续性随机变量, 设我们要了解的负荷p∈ (a, b] , F (p) 为负荷的分布函数, f (p) 为对应概率函数即分布密度, 则负荷落在区间 (a, b]的概率可表述为:

P{a

实践中, 我们通常取一系列时点上的负荷 (样本) 来获得对电力负荷整体上的认识, 也就是说, 电力负荷分布函数与概率函数我们并不知道, 讨论的基础只能是负荷样本。

由中心极限定理, 我们可先验地假定负荷服从正态分布, 即p~N (μ, σ2) 。计算样本的均值 (undefined) 与方差 (sp) 来估计分布参数, 进而求解。即有

undefined

如果总体负荷由大量的、单个影响较小的用户负荷构成, 那么上述假定便没有问题, 但区域性的负荷结构不一定满足该要求, 往往有少数用户负荷影响显著, 我们必须探求另外的估计精度高的有效方法。为此, 笔者引入非参数统计的核密度估计方法, 估计出负荷密度函数f (p) , 进而求解式 (1) 。在此基础上再行讨论负荷概率特性度量, 构建概率特性指标。

设观察期间我们采集到的负荷样本序列P (P1, P2, , Pn) 的n个负荷数据为p1, , pn。与直方图原理相似, 核密度估计也计算某点周围样本点的个数, 但依样本负荷点pi到待估密度的负荷点p的距离 (pi-p) , 以权函数的形式来决定pi在估计点p的密度时所起作用。这里的权函数是核函数K () , 满足对称性及undefined, 常用的核函数有均匀、高斯、三角、四次、六次等几种。

我们以均核导出核密度估计的一般形式, 均核函数为undefined。类似频率直方图, 考虑区间[p-h, p+h], 其中h为带宽, 则落入该区间的样本点数为:

vundefined=undefined

以均核undefined对该区间样本点加权计数, 这里取undefined, 表示对落入区间[p-h, p+h]的样本点均赋予0.5的权数计数, 而对该区间之外的点不予计数。则加权后该区间点数为

undefined

记负荷点p的核密度估计为undefined, 由式 (3) 、 (4) 则有:

undefined

undefined

将核函数放宽即可得到负荷p核密度估计的一般形式:

undefined

绘出undefined的图形, 我们能直观地了解负荷的分布特点、确定典型负荷的分布范围;由式 (1) 及 (6) , 我们亦能计算出某范围负荷出现的概率:

undefined

undefined

根据核密度估计的大样本性质, 我们可得置信水平为α的f (p) 的置信区间:

undefined

其中undefined

据此我们不仅估计出负荷密度, 还给出其置信区间从而把握了密度估计的精确程度。

由式 (6) 易知, 带宽直接影响到核密度估计曲线。带宽越大, 参与加权计算的观测点数越多, 曲线越平滑而拟合效果差, 反之则越不光滑而拟合效果好。这便是下文将讨论的带宽问题。

记supp (f) ={x:f (x) >0}。设x∈supp (f) ⊂Rd为supp (f) 的内点, 假设当n+∞时, h0, nh+∞, 则核估计具有如下性质:

undefined;

undefined;

undefined;

undefined;

(5) 若undefined, 则undefined。

由上述性质容易看出, 带宽h越大, 核估计的方差越小而核估计的偏差越大;反之带宽h越小, 核估计的方差越大而偏差越小。从而, 带宽h的选择必须综合权衡, 一般选择使积分均方误差undefined最小的原则。实践中通常采用Rudemo (1982) 与Bowman (1984) 提出的cross-validation (交叉实证) 法, 即选择带宽使得:

undefined

最小。可证明得出:

undefined

其中undefined是将第i个观测点剔除后的估计;KK (u) =∫tK (u-t) K (t) dt。

具体的负荷核密度估计, 我们可按上述思路编程来优选带宽, 获最佳估计结果。

通过实地调查, 我们获得湖南电网石门子系统某天每15分钟记录一次的日负荷样本序列, 如表1所示。

我们取高斯即标准正态分布N (0, 1) 的密度函数为核, 即式 (10) 中K是N (0, 1) 密度函数, 从而, KK 是N (0, 2) 密度函数, 则有下式 (11) :

undefined

从0.05到2.5之间以步长0.05选取最佳带宽, 利用Eviews编程计算, 得最佳带宽h=0.2。

以上限极端负荷概率指标为例, 取正态核和最优带宽, 利用Eviews编程计算 (负荷以0.005为步长试算) 有:

Pundefined=0.063 8;p0.05=38.715mw。

其含义就是说该地区当日负荷超过95%的最大负荷的概率为0.063 8, 低于38.715 mw的概率为0.95。

以正态分布为近似分布, 计算有:

Pundefined=0.0659;p0.05=34.62+2.42*1.645=38.601mw。

为说明非参数核密度估计的良好适用性, 我们与先验地假定该地日负荷服从正态分布的情况进行比较, 为此引入Kolmogorov分布拟合检验方法。

如果我们要检验假设H0:Fn (p) =F0 (p) (Fn (p) 为经验分布, F0 (p) 为已知分布) , 可以取统计量

undefined

undefined (12)

当Dn较大时拒绝H0。这就是Kolmogorov检验, Dn为柯氏统计量。

由表1中数据, 我们以正态分布的假定与非参数核密度估计两种方法来确定式 (12) 中的F0 (p) 。对第一种情况, 我们容易计算出样本均值与方差并据此估计该地日负荷的理论分布, 近似有P~N (34.62, 2.422) , 即undefined。对于密度的核估计, 我们由式 (7) 来确定, 取高斯核, 有

undefined

undefined

利用Eviews编程计算, 式 (13) 中的带宽取最佳带宽0.2, 分别有Dundefined=0.079、Dundefined=0.044。两种方法均能通过Kolmogorov检验, 但undefined, Dundefined显著优于Dundefined, 表明非参数核密度估计的精度更高

3 结论

我们首次从概率角度分析电力负荷特性, 并引入非参数核密度估计方法, 对电力负荷的概率特性问题作了有效讨论, 实例的计算结果以及比较分析表明:

1) 从概率角度讨论电力负荷特性具有直接的现实意义, 补充了现行的负荷特性描述、分析方法。精确认识负荷的分布特征与概率特性, 我们能作更为复杂的特性分析, 获取更多的信息, 进一步为电力规划、设备运行等活动提供实践依据。

2) 在电力负荷概率特性问题上, 非参数核估计方法不仅在区域性负荷不服从典型分布的情况下有独到的适用性, 而且实证分析表明, 在样本负荷分布通过服从典型分布的统计检验的情况下亦有精度上的显著优势。

3) 非参数核估计方法是估计总体局部特征的有效方法, 在没有充分理由认为研究对象服从典型分布的情况下, 能获得对研究对象的高精度的估计, 样本信息利用充分, 在负荷特性统计分析的其他方面可进一步探索, 推广应用。

参考文献

[1]国电调度通信中心.美国电力市场与调度运行[M].北京:中国电力出版社, 2002.

[2]贺文武.论电力负荷特性指数[J].长沙电力学院学报:自然科学版, 2004, 19 (4) :68-71.

[3]王亚雄, 贺文武.论电力负荷概率特性[J].长沙电力学院学报:自然科学版, 2005, 20 (1) :14-17

[4]何晓群.多元统计分析[M].北京:中国人民大学出版社, 2004.

非参数估计法 第6篇

配电系统处于电力系统末端,直接与用户相连,配电网可靠性实际上是整个电力系统安全运行的集中反映[1]。传统配电网可靠性评估采用期望值指标来揭示系统可靠性的长期平稳变化趋势,但期望值并不能完整揭示系统可靠性的内在分布规律。因此,要实现对系统随机特性和风险水平的理性认知,应从概率分布角度对系统风险进行完整刻画。

配电网可靠性评估通常假设元件的状态转移率为常数,即假定状态停留时间为指数分布[2,3]。对已经历调试期而尚未进入衰耗期的系统元件,此假设有效且大大简化了建模难度。而在实际工程中,元件故障现象受其所处位置、环境因素、元件维护水平和使用年龄等诸多因素协同影响[4,5,6];同时,元件修复过程也深受故障时天气状况、故障点位置、维修人员水平和维修方式等影响[7,8]。因此,对元件工作时间及修复时间采用非指数分布来描述其状态驻留时长的概率不确定性可与工程实际更加吻合。已有文献大多基于元件状态的指数分布展开研究,其中,文献[5]计及元件使用年龄来研究时变故障率对配电网可靠性的影响;文献[8]提出了概率分布为叠加指数分布、密度曲线为“铃形”的维修时间,并分析了时变修复率对系统瞬时状态概率值的影响;但文献[5]和文献[8]仅限于时变状态转移率对可靠性指标期望值的影响,未得到指标的概率分布。

配电网可靠性评估分为解析法[2,9,10,11]和蒙特卡洛仿真[12]两大类,且各有优缺点。解析法简单且计算速度较快,但难以得到概率分布,并且传统解析法要求元件状态驻留时间服从指数分布。蒙特卡洛仿真可求取可靠性指标的概率分布,并且适用于非指数分布系统,但为了满足模拟精度的要求计算时间较长,且难以开展可靠性参数的灵敏度分析。鉴于此,若能从解析角度建立配电网可靠性指标与元件概率特性的函数关系,不但能高效求取指标的概率分布,而且为开展元件随机特性与指标概率分布之间的关联性和耦合度分析奠定理论基础。

本文在元件工作时间和修复时间均服从指数分布及元件工作时间服从威布尔分布而修复时间服从对数正态分布2种假设下,推导了配电网可靠性指标的随机函数近似解析表达式。通过随机抽样生成概率函数表达式样本,并结合非参数核密度算法获得了可靠性指标的概率密度分布。通过对RBTS-BUS6测试系统的算例评估及序贯蒙特卡洛仿真的对比分析,验证了本文所提方法的可行性。

1 元件故障的频率分布

文献[13]已对指数分布时元件故障的频率分布有详细介绍,此处不再赘述,下面重点研究非指数分布时元件故障的频率分布。若元件i的故障前工作时间服从参数为α和β的威布尔分布,则随其尺度参数α与形状参数β的取值不同,便可构成对多种分布的表达[14]。式(1)给出了威布尔分布的概率密度函数:

式中:α>0,β>0。

对威布尔分布而言:当β=1时等同于指数分布;当β=2时等同于瑞利分布;当β=3.5时可近似表达正态分布。参数α和β的计算见附录A。

当元件i的工作时间服从指数分布时,其故障发生次数服从泊松分布[13]。而当元件i的工作时间服从威布尔分布时,由于其故障率λi(t)不再是固定不变的常数,因此,元件的故障频率不再服从泊松分布。此时,采用微元分析法,可假设元件i在故障前任意足够小的时段dt内故障率为常数,则dt内其随机故障的规律服从指数分布,基于此本文推导出元件i在[0,t]内发生x次故障的概率分布如下:

式(2)的推导过程见附录B。将等值条件α=1/λ(λ为元件故障率)和β=1代入式(2),可得到与泊松分布相同的表达式,可见泊松分布只是本文推导结果的一个特例。因此,采用威布尔分布来拟合或近似表达多种元件故障前工作时间的概率分布,并用式(2)求取该分布下元件故障次数的出现概率是正确的。

2 可靠性指标随机函数解析表达式

配电网可靠性评估一般仅考虑单阶元件故障,为了提高故障搜索速度,本文借鉴已有的研究成果,根据故障扩散范围和恢复措施的作用范围,以开关装置为边界对配电网进行简化分块[9,10],块的等值可靠性参数可用块内所有元件的串联公式计算。配电网进行分块之后的可靠性等值网络是由引起系统失效的所有块所构成的串联网络。某故障事件发生后,根据该故障事件对负荷点停电持续时间影响的不同,将负荷节点分为4类[11]:a类节点不受故障事件影响;b类节点为隔离故障设备所需的操作时间;c类节点为隔离操作加切换操作时间;d类节点为故障设备修复时间。

假设某配电网含有N个元件和M个负荷点,元件编号为n=1,2,,N,负荷点编号为m=1,2,,M,其中负荷点m的用户数用Nm表示,采用分块算法时共形成NB个块,编号为i=1,2,,NB,其中第i个块用Bi表示,块Bi故障时引起Mi个负荷点停电,对停电时间为b,c,d类的负荷点,其节点编号所构成的集合分别为Mib,Mic及Mid。

配电网可靠性评估通常采用年可靠性指标,因此下文对区间[0,t]中的参数t默认取1。对于配电网可靠性指标随机函数的近似解析表达式,需要分2种情况进行讨论。正文重点讨论系统级指标的随机函数解析模型,而负荷点指标由附录C给出。

2.1 指数分布系统

对于指数分布系统,以块为基础计算单元,令fBi为块Bi的年故障次数,fin为块Bi中元件n的年故障次数,λin为块Bi中元件n的故障率。则有:

fin为随机变量,故fBi也为随机变量。而fin服从泊松分布,在元件故障相互独立的假设下,根据概率论相关知识可知fBi也服从泊松分布,其参数为:

由此可得到配电网系统级可靠性指标:系统平均停电频率SAIFI、系统平均停电持续时间SAIDI、系统年缺供电量ENS的随机函数解析表达式:

式中:rbi和rci分别为块Bi故障后,b和c类节点的停电时间,且分别服从以块Bi的平均故障隔离时间及平均故障隔离外加联络切换操作时间为参数的指数分布;rdi为块Bi的修复时间,服从以块Bi中当前故障元件的平均修复时间为参数的指数分布;Nj为负荷点j的用户数;Lj为负荷点j的负荷大小,通常为其平均负荷。

2.2 非指数分布系统

对于非指数分布系统,为了使可靠性指标的随机函数解析表达式具有普适性,假设元件i的故障前工作时间服从威布尔分布,元件修复时间及开关操作时间服从更接近工程实际的对数正态分布(见附录A)。此时,元件的年故障次数之和已不再服从任何已知分布,例如上节的泊松分布,即块的年故障次数及其发生概率不能解析表达。在此条件下,不能再以块,而应以元件为基础计算单元。对上述指数分布系统的可靠性指标随机函数解析表达式作适当修改,可给出非指数分布情况下,系统指标对应的随机函数解析表达式:

式中:fin的概率分布由式(2)确定;rdin为块Bi中元件n的d类节点的修复时间;rbi,rci,rdin均服从对数正态分布,对数正态分布的参数计算见附录A。

3 随机变量概率密度分布的求取方法

对概率密度分布难以解析获取的随机变量,本文采用课题组于文献[15]中已提出的非参数核密度估计方法。由于文献[13]已详细描述如何在指数分布系统中采用解析模型得到可靠性指标样本,故本文以非指数分布时的ENS指标为例进行说明。

步骤1:设置所需可靠性指标样本总数NS和计数器q=1,i=1,令第q个可靠性指标样本ENS(q)=0,设置变量n的初值为块Bi中第1个元件的索引编号。

步骤2:判断q是否大于NS,若是则已得NS个ENS样本值,样本抽取过程结束;否则转步骤3。

步骤3:对块Bi中元件索引编号为n的元件随机抽取一个[0,1]之间均匀分布的随机数Rin(q),由式(2)可知元件故障发生次数分别为1,2,3,时的概率之和为1。据此以式(2)计算出的概率值为子区间长度,可将[0,1]区间分成无数个子区间,概率区间分布如图1所示,若通过图1判断出Bi落在x次故障概率区间内,则令fin(q)=x。

步骤4:若fin(q)=0,转步骤5;否则分别产生fin(q)组服从对数正态分布的随机数{rbi(k),rci(k),rdin(k)},k=1,2,,fin(q),并按下式更新ENS(q)。

步骤5:判断变量n是否为块Bi中最后一个元件的索引编号,如果是,则转步骤6,否则令变量n为块Bi中下一个元件的索引编号,转步骤3。

步骤6:令i=i+1,判断i是否大于块的总数NB,若不是转步骤3;若是则第q个可靠性指标样本ENS(q)已计算完成,并令i=1,q=q+1,转步骤2。

4 算例分析

应用本文方法对RBTS-BUS6系统进行可靠性评估,该系统有主馈线4条,负荷点40个,熔断器40台,用户2 983户,总平均负荷10.715MW[16]。

第2节给出了配电网的SAIFI,SAIDI和ENS指标的随机函数解析表达式,在这些表达式中,虽然作为函数变量的元件故障频率和故障后修复时间的概率密度分布已知,但由于表达式较为复杂,无法通过函数变量的概率密度分布实现SAIFI,SAIDI和ENS指标的概率密度分布的直接解析计算。但将它们的随机函数解析表达式与第3节的抽样算法和核密度估计技术相结合,则可有效解决这个难题。为了充分验证本文所提模型及算法的正确性,采用以下3种方案进行算例分析,每种方案的解析计算结果都与序贯蒙特卡洛仿真进行对比,序贯蒙特卡洛仿真的收敛条件为ENS方差系数小于0.01。

1)方案A,假设元件故障前工作时间服从β=1.5的威布尔分布,故障后修复时间和开关操作时间服从对数正态分布,采用式(2)的元件故障频率分布和式(8)至式(10)的随机函数解析表达式。

2)方案B,假设元件故障前工作时间、故障后修复时间和开关操作时间均服从指数分布,且将方案B在2种条件下实现:(1)条件1,以块为最小计算单元,采用泊松分布和式(5)至式(7)基于指数分布的随机函数解析表达式。(2)条件2,以元件为最小计算单元,采用式(2)的元件故障频率分布和式(8)至式(10)基于非指数分布的随机函数解析表达式,但假设元件工作时间服从α=1/λ,β=1的特殊威布尔分布(β=1时,威布尔分布实为指数分布)。

3)方案C,假设元件故障前工作时间服从β=0.5的威布尔分布,其他条件同方案A。

方案A下SAIFI和ENS指标的概率密度分布计算结果如图2所示。可见,解析模型与序贯蒙特卡洛仿真的计算结果非常接近,二者得出的概率密度分布曲线几乎完全重叠。说明了元件故障前工作时间服从威布尔分布时,采用式(2)计算元件的故障频率分布,以及基于式(8)至式(10)以元件为最小计算单位进行概率密度分布的解析计算可以获得很准确的结果。

方案B下SAIFI和ENS指标的概率密度分布计算结果如图3所示。

可见,在条件1和2下可靠性指标的概率密度分布曲线的解析模型与序贯蒙特卡洛仿真的计算结果几乎完全重合。由于指数分布只是威布尔分布的一种特殊情况,因此,以元件为最小计算单位的随机函数解析表达式(式(8)至式(10))具有广义普适性,而以块为最小计算单位的随机函数解析表达式(式(5)至式(7))实际上是式(8)至式(10)以元件故障前工作时间为指数分布时的一种特例。

方案C下SAIFI和ENS指标的概率密度分布计算结果如图4所示。可见,在方案C下,解析模型与序贯蒙特卡洛仿真的计算结果存在一定差异,但二者曲线的整体形状及起始点和延伸范围等基本特征一致。产生这种较小差异的原因是:推导式(2)时曾假设元件平均维修时间远小于平均无故障工作时间,因此只有在元件平均维修时间很小且可以忽略不计的前提下,式(2)的元件故障频率分布才是精确的。虽然采用这样的假设导致解析模型和序贯蒙特卡洛仿真的结果有一定差异,但因差异较小所以解析模型的计算结果仍然可信,此外解析模型的计算时间远低于序贯蒙特卡洛仿真,这使得本文解析模型具有较大优势。

对比A,B,C这3种方案的计算结果可以发现:β取值越小,SAIFI和ENS指标的概率密度分布曲线在横轴上越往右偏移,且可靠性指标的分布范围也越大,反映出的系统可靠性也变得越差。究其原因,可以从威布尔分布的概率密度曲线的变化趋势加以说明。基于附录A的威布尔分布构造条件(为了方便起见,在此采用具有代表性的RBTS-BUS6系统元件1的参数λ1=0.048 8次a-1),分别绘出其在β=1.5,β=1.0,β=0.5时概率密度曲线如图5所示。

由图5可知,对于威布尔分布的3种参数设置,虽然它们的期望值均为1/λ1,但各自的概率密度曲线却存在着显著差异:当β=1.5时,其概率密度曲线呈单峰形状且集中分布于远离原点的区域内;当β=0.5时,其概率密度曲线在靠近原点的小范围内呈陡然下降趋势;而β=1.0时的概率密度曲线的变化趋势居于二者之间。这说明β取值越小,元件故障前工作时间分布在靠近原点附近的时间区域内的概率较大,因此,元件故障频率的概率分布中出现较高故障次数的概率也较大,从而导致SAIFI和ENS指标的计算数值也较大。

SAIFI和ENS指标随β取值而变化的特点也可用表1的计算结果来揭示。表1给出各种方案下采用解析模型时部分可靠性指标的期望值计算结果,并以文献[3]的计算结果作为参照。

由表1的计算结果可得结论如下。

1)方案B在2种条件下的可靠性指标SAIFI和ENS的期望值在数值上与文献[3]十分接近,而文献[3]正是以元件工作及修复时间为指数分布的假设为前提条件。因此,采用式(5)至式(10)近似计算可靠性指标概率密度分布可获得较准确的结果。

2)A,B,C这3种方案下的系统可靠性指标计算结果均体现了β数值越大,系统可靠性水平越高这个结论。

5 结论

本文提出了适用于配电网负荷点及系统级可靠性指标的随机函数解析表达式,并结合非参数核密度估计技术,实现了可靠性指标的概率密度分布计算。解析建模过程考虑了工程实际中元件故障前工作时间和故障后修复时间属于非指数分布的情况。通过与序贯蒙特卡洛仿真的计算结果进行对比分析,验证了所提解析模型的正确性。

非参数估计法 第7篇

关键词:新股发行定价,GMDH算法,非参数估计

0 引言

新股发行可以为公司筹措资金以扩大经营规模,有助于公司改善资本结构和管理结构,为其持续发展打下坚实基础。发行定价是发行业务中的核心环节,定价是否合理不仅关系到发行人、投资者与承销商的切身利益,而且关系到股票市场资源配置功能的发挥。

我国股票发行定价先后经历了固定价格定价、相对固定市盈率定价、累积投标定价、控制市盈率定价、两阶段询价定价等方式,随着我国股票市场规范化、市场化、国际化的发展趋势,新股发行定价的完全市场化改革势在必行。

Sharpe和Lintner于1964年提出了资本资产定价模型,从资本市场交易角度进行资产定价。由于模型的假设条件与实际股票市场不符,而且模型忽视了许多与证券价值相关的影响因素,尽管这一模型极具理论意义,实践上却极少用于股票的发行定价。此后,学者们研究发现,股票发行时存在新股短期发行抑价问题[1],于是,相继提出了累计投标询价制[2,3]、BP神经网络[4]、类比法、多因素回归模型等模型,以此作为发行定价的理论依据。

本文结合我国证券市场的实际情况,考虑影响新股定价的诸多因素,利用基于非参数估计的GMDH算法模型研究股票发行定价,以此作为对新股进行科学合理定价的研究基础。

1 基于非参数估计的GMDH算法

GMDH(Group Method of Data Handling)由乌克兰学者A.G.Ivaklmenko于上世纪六、七十年代提出[5]。GMDH采用多层迭代,借助自组织原理,由计算机利用数据相对客观地选择变量之间的关系,用外准则选取最优模型,实现对研究对象内部结构的模拟[6,7]。GMDH算法步骤:

(1)将样本集W分为学习集A(training set)和检测集B(testing set)(W=A+B)。

(2)建立参考函数表示输入变量和输出变量之间的一般函数关系y=m(xi,xj)。

(3)选择一个外准则作为一个目标函数。GMDH算法允许众多选择准则,为不同系统确定各自的复杂性,如最小偏差准则。本文选用最小偏差准则。

(4)计算选择准则(外准则)值,选择满足外准则的传递函数作为最优模型继续构建网络,直到最后模型结构不能再改善,得到最优复杂度模型。

具体算法如下:

如此下去,直到最后模型结构不能再改善,此时沿最后一层的输出变量逐层回推就可以得到最优模型的参数及模型结构。

由于GMDH的参考函数大多采用K-G多项式,其实质为线性形式,容易造成人为误差。本文用非参数估计方法估计GMDH的参考函数从而避免模型设定误差[8]。

方法一:选择核估计方法估计GMDH的参考函数

K(·)为核函数,hn为窗宽,核函数满足条件:

方法二:选择局部线性估计方法估计GMDH的参考函数

2 实证分析

2.1 样本选取

以CSMAR中国股票市场交易数据库为数据源,选取2010.1-2010.6在深圳证券交易所上市的新股,利用上市前企业招股说明书公布的数据进行分析。其中数据完整的股票65只,从中任意选择50只股票的数据作为学习集,15只股票为检测集。检测集的15只股票分别为得利斯、皇氏乳业、海宁皮诚、泰尔重工、北京科锐、漫步者、章源钨业、鲁丰股份、北京利尔、双象股份、梦洁家纺、建研集团、爱仕达、广联达、永安药业。

2.2 变量选取

由于我国的股票发现普遍存在发行溢价现象,选取首日收盘价为待估变量。考虑新股发行的各种因素,认为以下三个方面能比较全面的反映股票发行定价的微观和宏观状况,是影响股票发行定价的主因:招股公司的经营情况;招股前股市的活动情况;相关政策的影响。

综合以上几个方面,本文选取以下9个变量来度量新股发行定价:每股实际发行费用(元)、每股净利(元)、每股净资产(元)、招股数量(万股对数)、首日换手率(%)、资产负债率(%)、招股前一周A股收盘指数(对数)、招股前一月居民消费价格指数(对数)、政策类型(虚拟变量,取0和1)。

2.3 确定外准则

从上市公司的角度考虑,定价的目标是要尽量减小抑价率,即股票发行价的期望值应尽可能接近上市首日收盘价。因此,确定外准则为估计的残差最小,即:

利用基于非参数估计的GMDH算法对样本进行分析,并对校测集的15只股票进行预测,计算结果如表1。

3 结论

本文将GMDH算法用非参数估计加以改进,分别利用核估计方法和局部线性估计方法来改进GMDH算法的参考函数,以避免模型设定的人为误差。实证结果表明,新股发行确实存在溢价现象,而对首日收盘价的估计发现基于非参数估计的GMDH方法能较好的估计新股发行价格,并且基于局部线性估计的GMDH方法预测效果优于基于核估计的方法。

参考文献

[1]Rajesh K.Aggarwal,Laurie Krigman,Kent L.Womack.Strategic IPO underpricing,information momentum,and lockupexpiration selling[J].Journal of Financial Economics,2002,(66),105-137.

[2]Ann E.Sherman and Sheridan Titman.Building the IPOOrder Book:Underpricing and Participation Limits with CostlyInformation[J].Journal of Financial Economics,2002,(65):3-29.

[3]邓召明.我国股票发行定价效率实证研究[J].南开经济研究,2001,(6):60-64.

[4]赵晨萍,王应军.一种改进的BP神经网络在新股定价中的应用[J].福建电脑,2010,(8).

[5]Ivakhnenko A.G.Heuristicself of organization on problemsof engineering cybernetics[J].Automatic.1970,(6),3:207-219.

[6]Johann Adolf Muller and Frank Lemke.Self-Organising DataMining[M].Dresden,Brelin.2000.

[7]刘光中等.基于自组织理论的GMDH神经网络算法及应用[J].数学的实践与认识,2001,2(4):464-467.

[8]叶阿忠.非参数计量经济学[M].天津:南开大学出版社.2003.

[9]田益祥,谭地军.基于局部线性核估计的GMDH建模及预测[J].系统工程学报,2008,23(1).

非参数估计法 第8篇

1 检测方法

在烟支的生产过程中会产生各种不合格产品, 这些产品必须在适当的位置准确地加以剔除才能保证设备的正常运行和产品质量。卷接包设备的电控系统具有对烟支空头、稀释度等的检测剔除功能, 其剔除率过大或过小都可能导致烟支误剔、漏剔。过大可能存在好烟支误剔情况, 提高废品率;过小可能存在不合格烟支未剔除情况, 影响产品质量。基于此, 应用参数估计法建立烟支空头检测剔除率评价方法, 把剔除率控制在一个合理的范围内。

1.1 烟支空头的概念

烟支空头 (loose ends) 是指卷烟端头因烟丝未填充而形成的一定面积和深度的空陷。在国标GB 5606.3—2005《卷烟第3部分:包装、卷制技术要求及贮运》中, 烟支空头是A类质量缺陷, 而且卷烟外观指标要求卷烟端头不应空松, 即其端头不应同时出现表1规定的空陷深度和空陷截面比两种情况。

1.2 烟支空头检测原理

烟支空头用安装在选择鼓轮上的空头探测器进行探测。烟支在鼓轮上两排分布, 烟支的烟丝端对准探测头, 当每支烟经过探头中心时, 广角红外发光二极管持续发射100μs脉冲, 卷烟纸内侧被照亮, 光透过纸由安装在环中的四个并联光电二极管接收, 空头或局部填充的烟支端的光电二极管接收的光比正常填充部分的光电二极管接收的光要多。

1.3 参数估计

参数估计是推断统计的重要内容之一, 它是在抽样及抽样分布的基础上, 根据样本统计量来推断所关心的总体参数, 它是统计推断的一种基本形式。一般而言, 参数估计可以分为点估计和区间估计两部分。

由于“烟支空头检测剔除率”这个总体不知是否服从正态分布, 所以我们应用“总体方差未知且为大样本情况下的点估计”方法。

1.4 建立样本

已知卷接机组P, 生产牌名H, 待设备稳定运行0.5 h后, 记录烟支空头检测剔除数。生产时间7.5 h/班次, 记录烟支总数和卷接机组检测剔除的内、外排空头烟支数, 连续记录50个班次, 建立一个抽样样本。

1.5 测量方法

烟支空头检测剔除率Y按公式 (1) 进行计算:

式中,

X内排 (X外排) ———正常生产一定时间内卷接机组检测剔除的内排 (外排) 空头烟支数;

X产量———正常生产一定时间内烟支总数。

2 结果与讨论

2.1 烟支空头检测剔除率评价方法的建立

用50个班次的烟支空头检测剔除率创建一个数据文件, 并对其进行均值估计, 如表2所示。

采用Excel2007统计分析与应用系统进行检测数据的处理和统计分析。依次选择“公式”/“插入函数”命令, 打开“插入函数”对话框, 分别选择计数函数COUNT, 计算样本均值函数AVERAGE, 计算样本标准差函数STDEV, 打开“函数参数”对话框;在Value中输入数据范围“A1:A50”, 统计计算结果如表2所示。

表2中, 样本标准误差=样本标准差/ (样本个数) 1/2。再次选择“公式”/“插入函数”命令, 打开“插入函数”对话框, 选择类别为“统计”, 选择标准正态分布函数NORMSINV, 打开“函数参数”对话框;在Probability中输入双尾概率正态分布概率0.975, 得到Z值, 如表2所示。

应用“总体方差未知且为大样本情况下的点估计”方法, 以样本方差S2代替总体方差σ2, 这时总体均值在1-α置信水平下的置信区间为

从而得出置信上限和置信下限, 如表2所示, 卷接机组P生产牌名H烟支的空头检测剔除率的置信区间为[0.004 687, 0.010 233]。

根据烟支空头检测剔除率的置信区间作控制图, 与卷接包数据系统有机结合起来, 建立烟支空头检测剔除率评价方法, 根据该方法进行在线动态跟踪, 可为生产管理提供有力依据。

2.2 烟支空头检测剔除率评价方法的有效性验证

卷接机组P, 生产牌名H, 正常生产时大风机负压范围是 (-11 000~-9 000) Pa。调节大风机负压值, 正常生产一段时间后烟支空头检测剔除率结果见表3。

当大风机负压值调整到正常范围之外时, 烟支空头检测剔除率超出了置信区间[0.004 687, 0.010 233]。由此可知, 正常生产时, 可采用此方法判断生产过程的异常性, 从而进一步分析设备状态, 并起到预警作用。

3 结论

应用参数估计法建立烟支空头检测剔除率评价方法, 可以判断生产过程的异常情况, 很好地挖掘现有设备的潜能, 为设备状态分析提供依据, 从而更好地指导生产, 提升产品空头等不合格质量缺陷的控制水平, 降低消耗。该评价方法可以与卷接包数据系统有机结合起来进行在线动态跟踪, 为生产管理提供准确、便捷的判断方法。

摘要:参数估计是推断统计的重要内容之一, 它是在抽样及抽样分布的基础上, 根据样本统计量来推断所关心的总体参数。卷烟国标中“烟支空头”是A类质量缺陷 (严重质量缺陷) 。应用参数估计法建立烟支空头检测剔除率评价方法, 并与数据系统有机结合进行在线动态跟踪。结果表明:该方法的建立可以起到预警作用, 为设备状态分析提供依据, 规范生产过程, 提高产品质量。

关键词:参数估计,烟支空头,检测剔除率,评价方法

参考文献

[1]张联锋, 蒋敏杰, 张鹏龙, 等.Excel统计分析与应用[J].北京:电子工业出版社, 2011.

[2]国家烟草专卖局.《卷烟》系列国家标准[M].北京:中国标准出版社, 2005.

[3]国家烟草专卖局.卷烟工艺规范[M].北京:中央文献出版社, 2003.

[4]全国质量专业技术人员职业资格考试办公室.质量专业理论与实务 (中级) [M].北京:中国人事出版社, 2007:147-155.

非参数估计法范文

非参数估计法范文(精选8篇)非参数估计法 第1篇视频目标空域定位是智能视频监控的一项关键核心技术, 即在检测到视频目标区域后, 需进一...
点击下载文档文档内容为doc格式

声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。如若本站内容侵犯了原著者的合法权益,可联系本站删除。

确认删除?
回到顶部