⑴ 非平稳时间序列可以预测股票走势吗
一般把非平稳时间序列转化为平稳时间序列的方法是取n阶差分法。
比如举个例子,假设xt本身是不平稳的时间序列,如果xt~I(1) ,也就是说x的1阶差分是平稳序列。
那么 xt的1阶差分dxt=x(t)-x(t-1) 就是平稳的序列 这时dt=x(t-1)
如果xt~I(2),就是说xt的2阶差分是平稳序列的话
xt的1n阶差分dxt=x(t)-x(t-1) 这时xt的1阶差分依然不平稳,
那么 对xt的1阶差分再次差分后,
xt的2阶差分ddxt=dxt-dxt(t-1)便是平稳序列 这时dt=-x(t-1)-dxt(t-1)
n阶的话可以依次类推一下。
⑵ 时间序列在股市有哪些应用
时间序列分析在股票市场中的应用
摘要
在现代金融浪潮的推动下,越来越多的人加入到股市,进行投资行为,以期得到丰厚的回报,这极大促进了股票市场的繁荣。而在这种投资行为的背后,越来越多的投资者逐渐意识到股市预测的重要性。
所谓股票预测是指:根据股票现在行情的发展情况地对未来股市发展方向以及涨跌程度的预测行为。这种预测行为只是基于假定的因素为既定的前提条件为基础的。但是在股票市场中,行情的变化与国家的宏观经济发展、法律法规的制定、公司的运营、股民的信心等等都有关联,因此所谓的预测难于准确预计。
时间序列分析是经济预测领域研究的重要工具之一,它描述历史数据随时间变化的规律,并用于预测经济数据。在股票市场上,时间序列预测法常用于对股票价格趋势进行预测,为投资者和股票市场管理管理方提供决策依据。
⑶ 一支简单的股票价格预测的数学模型!!!!
对于股票价格只能是在理论上,换句话说是在你自己的期望预期。
而对于股票价格预测一般是从他的基本面上来考虑。
你可以试试下面的方法:
杜邦财务分析法及案例分析
摘要:杜邦分析法是一种财务比率分解的方法,能有效反映影响企业获利能力的各指标间的相互联系,对企业的财务状况和经营成果做出合理的分析。
关键词:杜邦分析法;获利能力;财务状况
获利能力是企业的一项重要的财务指标,对所有者、债权人、投资者及政府来说,分析评价企业的获利能力对其决策都是至关重要的,获利能力分析也是财务管理人员所进行的企业财务分析的重要组成部分。
传统的评价企业获利能力的比率主要有:资产报酬率,边际利润率(或净利润率),所有者权益报酬率等;对股份制企业还有每股利润,市盈率,股利发放率,股利报酬率等。这些单个指标分别用来衡量影响和决定企业获利能力的不同因素,包括销售业绩,资产管理水平,成本控制水平等。
这些指标从某一特定的角度对企业的财务状况以及经营成果进行分析,它们都不足以全面地评价企业的总体财务状况以及经营成果。为了弥补这一不足,就必须有一种方法,它能够进行相互关联的分析,将有关的指标和报表结合起来,采用适当的标准进行综合性的分析评价,既全面体现企业整体财务状况,又指出指标与指标之间和指标与报表之间的内在联系,杜邦分析法就是其中的一种。
杜邦财务分析体系(TheDuPontSystem)是一种比较实用的财务比率分析体系。这种分析方法首先由美国杜邦公司的经理创造出来,故称之为杜邦财务分析体系。这种财务分析方法从评价企业绩效最具综合性和代表性的指标-权益净利率出发,层层分解至企业最基本生产要素的使用,成本与费用的构成和企业风险,从而满足通过财务分析进行绩效评价的需要,在经营目标发生异动时经营者能及时查明原因并加以修正,同时为投资者、债权人及政府评价企业提供依据。
一、杜邦分析法和杜邦分析图
杜邦模型最显着的特点是将若干个用以评价企业经营效率和财务状况的比率按其内在联系有机地结合起来,形成一个完整的指标体系,并最终通过权益收益率来综合反映。采用这一方法,可使财务比率分析的层次更清晰、条理更突出,为报表分析者全面仔细地了解企业的经营和盈利状况提供方便。
杜邦分析法有助于企业管理层更加清晰地看到权益资本收益率的决定因素,以及销售净利润率与总资产周转率、债务比率之间的相互关联关系,给管理层提供了一张明晰的考察公司资产管理效率和是否最大化股东投资回报的路线图。
杜邦分析法利用各个主要财务比率之间的内在联系,建立财务比率分析的综合模型,来综合地分析和评价企业财务状况和经营业绩的方法。采用杜邦分析图将有关分析指标按内在联系加以排列,从而直观地反映出企业的财务状况和经营成果的总体面貌。
杜邦财务分析体系如图所示:
二、对杜邦图的分析
1.图中各财务指标之间的关系:
可以看出杜邦分析法实际上从两个角度来分析财务,一是进行了内部管理因素分析,二是进行了资本结构和风险分析。
权益净利率=资产净利率×权益乘数
权益乘数=1÷(1-资产负债率)
资产净利率=销售净利率×总资产周转率
销售净利率=净利润÷销售收入
总资产周转率=销售收入÷总资产
资产负债率=负债总额÷总资产
2.杜邦分析图提供了下列主要的财务指标关系的信息:
(1)权益净利率是一个综合性最强的财务比率,是杜邦分析系统的核心。它反映所有者投入资本的获利能力,同时反映企业筹资、投资、资产运营等活动的效率,它的高低取决于总资产利润率和权益总资产率的水平。决定权益净利率高低的因素有三个方面--权益乘数、销售净利率和总资产周转率。权益乘数、销售净利率和总资产周转率三个比率分别反映了企业的负债比率、盈利能力比率和资产管理比率。
(2)权益乘数主要受资产负债率影响。负债比率越大,权益乘数越高,说明企业有较高的负债程度,给企业带来较多地杠杆利益,同时也给企业带来了较多地风险。资产净利率是一个综合性的指标,同时受到销售净利率和资产周转率的影响。
(3)资产净利率也是一个重要的财务比率,综合性也较强。它是销售净利率和总资产周转率的乘积,因此,要进一步从销售成果和资产营运两方面来分析。
销售净利率反映了企业利润总额与销售收入的关系,从这个意义上看提高销售净利率是提高企业盈利能力的关键所在。要想提高销售净利率:一是要扩大销售收入;二是降低成本费用。而降低各项成本费用开支是企业财务管理的一项重要内容。通过各项成本费用开支的列示,有利于企业进行成本费用的结构分析,加强成本控制,以便为寻求降低成本费用的途径提供依据。
企业资产的营运能力,既关系到企业的获利能力,又关系到企业的偿债能力。一般而言,流动资产直接体现企业的偿债能力和变现能力;非流动资产体现企业的经营规模和发展潜力。两者之间应有一个合理的结构比率,如果企业持有的现金超过业务需要,就可能影响企业的获利能力;如果企业占用过多的存货和应收账款,则既要影响获利能力,又要影响偿债能力。为此,就要进一步分析各项资产的占用数额和周转速度。对流动资产应重点分析存货是否有积压现象、货币资金是否闲置、应收账款中分析客户的付款能力和有无坏账的可能;对非流动资产应重点分析企业固定资产是否得到充分的利用。
三、利用杜邦分析法作实例分析
杜邦财务分析法可以解释指标变动的原因和变动趋势,以及为采取措施指明方向。下面以一家上市公司北汽福田汽车(600166)为例,说明杜邦分析法的运用。
福田汽车的基本财务数据如下表:
(一)对权益净利率的分析
权益净利率指标是衡量企业利用资产获取利润能力的指标。权益净利率充分考虑了筹资方式对企业获利能力的影响,因此它所反映的获利能力是企业经营能力、财务决策和筹资方式等多种因素综合作用的结果。
该公司的权益净利率在2001年至2002年间出现了一定程度的好转,分别从2001年的0.097增加至2002年的0.112.企业的投资者在很大程度上依据这个指标来判断是否投资或是否转让股份,考察经营者业绩和决定股利分配政策。这些指标对公司的管理者也至关重要。
公司经理们为改善财务决策而进行财务分析,他们可以将权益净利率分解为权益乘数和资产净利率,以找到问题产生的原因。
表三:权益净利率分析表
福田汽车权益净利率=权益乘数×资产净利率
2001年0.097=3.049×0.032
2002年0.112=2.874×0.039
通过分解可以明显地看出,该公司权益净利率的变动在于资本结构(权益乘数)变动和资产利用效果(资产净利率)变动两方面共同作用的结果。而该公司的资产净利率太低,显示出很差的资产利用效果。
(二)分解分析过程:
权益净利率=资产净利率×权益乘数
2001年0.097=0.032×3.049
2002年0.112=0.039×2.874
经过分解表明,权益净利率的改变是由于资本结构的改变(权益乘数下降),同时资产利用和成本控制出现变动(资产净利率也有改变)。那么,我们继续对资产净利率进行分解:
资产净利率=销售净利率×总资产周转率
2001年0.032=0.025×1.34
2002年0.039=0.017×2.29
通过分解可以看出2002年的总资产周转率有所提高,说明资产的利用得到了比较好的控制,显示出比前一年较好的效果,表明该公司利用其总资产产生销售收入的效率在增加。总资产周转率提高的同时销售净利率的减少阻碍了资产净利率的增加,我们接着对销售净利率进行分解:
销售净利率=净利润÷销售收入
2001年0.025=10284.04÷411224.01
2002年0.017=12653.92÷757613.81
该公司2002年大幅度提高了销售收入,但是净利润的提高幅度却很小,分析其原因是成本费用增多,从表一可知:全部成本从2001年403967.43万元增加到2002年736747.24万元,与销售收入的增加幅度大致相当。下面是对全部成本进行的分解:
全部成本=制造成本+销售费用+管理费用+财务费用
2001年403967.43=373534.53+10203.05+18667.77+1562.08
2002年736747.24=684559.91+21740.962+25718.20+5026.17通过分解可以看出杜邦分析法有效的解释了指标变动的原因和趋势,为采取应对措施指明了方向。
在本例中,导致权益利润率小的主原因是全部成本过大。也正是因为全部成本的大幅度提高导致了净利润提高幅度不大,而销售收入大幅度增加,就引起了销售净利率的减少,显示出该公司销售盈利能力的降低。资产净利率的提高当归功于总资产周转率的提高,销售净利率的减少却起到了阻碍的作用。
由表4可知,福田汽车下降的权益乘数,说明他们的资本结构在2001至2002年发生了变动2002年的权益乘数较2001年有所减小。权益乘数越小,企业负债程度越低,偿还债务能力越强,财务风险程度越低。这个指标同时也反映了财务杠杆对利润水平的影响。财务杠杆具有正反两方面的作用。在收益较好的年度,它可以使股东获得的潜在报酬增加,但股东要承担因负债增加而引起的风险;在收益不好的年度,则可能使股东潜在的报酬下降。该公司的权益乘数一直处于2~5之间,也即负债率在50%~80%之间,属于激进战略型企业。管理者应该准确把握公司所处的环境,准确预测利润,合理控制负债带来的风险。
因此,对于福田汽车,当前最为重要的就是要努力减少各项成本,在控制成本上下力气。同时要保持自己高的总资产周转率。这样,可以使销售利润率得到提高,进而使资产净利率有大的提高。
四、结论
综上所述,杜邦分析法以权益净利率为主线,将企业在某一时期的销售成果以及资产营运状况全面联系在一起,层层分解,逐步深入,构成一个完整的分析体系。它能较好的帮助管理者发现企业财务和经营管理中存在的问题,能够为改善企业经营管理提供十分有价值的信息,因而得到普遍的认同并在实际工作中得到广泛的应用。
但是杜邦分析法毕竟是财务分析方法的一种,作为一种综合分析方法,并不排斥其他财务分析方法。相反与其他分析方法结合,不仅可以弥补自身的缺陷和不足,而且也弥补了其他方法的缺点,使得分析结果更完整、更科学。比如以杜邦分析为基础,结合专项分析,进行一些后续分析对有关问题作更深更细致分析了解;也可结合比较分析法和趋势分析法,将不同时期的杜邦分析结果进行对比趋势化,从而形成动态分析,找出财务变化的规律,为预测、决策提供依据;或者与一些企业财务风险分析方法结合,进行必要的风险分析,也为管理者提供依据,所以这种结合,实质也是杜邦分析自身发展的需要。分析者在应用时,应注意这一点。
⑷ 什么时候用回归分析,什么时候用时间序列
两者的核心区别在于对数据的假设回归分析假设每个数据点都是独立的,而时间序列则是利用数据之间的相关性进行预测。
本文会先说明两者对数据的具体假设差异,再说明AR模型为什么虽然看上去像回归分析但还是有差别,最后也提到一个常见的混淆两者后在金融方向可能出现的问题。
回归分析对数据的假设:独立性在回归分析中,我们假设数据是相互独立的。这种独立性体现在两个方面:一方面,自变量(X)是固定的,已被观测到的值,另一方面,每个因变量(y)的误差项是独立同分布,对于线性回归模型来说,误差项是独立同分布的正态分布,并且满足均值为0,方差恒定。
这种数据的独立性的具体表现就是:在回归分析中,数据顺序可以任意交换。在建模的时候,你可以随机选取数据循序进行模型训练,也可以随机选取一部分数据进行训练集和验证集的拆分。也正因为如此,在验证集中,每个预测值的误差都是相对恒定的:不会存在误差的积累,导致预测准确度越来越低。
时间序列对数据的假设:相关性但对于时间序列分析而言,我们必须假设而且利用数据的相关性。核心的原因是我们没有其他任何的外部数据,只能利用现有的数据走向来预测未来。因此,我们需要假设每个数据点之间有相关性,并且通过建模找到对应的相关性,利用它去预测未来的数据走向。这也是为什么经典的时间序列分析(ARIMA)会用ACF(自相关系数)和PACF(偏自相关系数)来观察数据之间的相关性。
ACF和PACF分别用两种方式衡量数据点与数据点之间的相关性时间序列对相关性的假设直接违背了回归分析的独立性假设。在多段时间序列预测中,一方面,对于未来预测的自变量可能无法真实的观察到,另一方面,随着预测越来越远,误差会逐渐积累:你对于长远未来的预测应该会比近期预测更不确定。因此,时间序列分析需要采用一种完全不同的视角,用不同的模型去进行分析研究。
AR模型和线性回归模型的“相似”和区别时间序列分析中一个基础模型就是AR(Auto-Regressive)模型。它利用过去的数据点来预测未来。举例而言,AR(1)模型利用当前时刻的数据点预测未来的值,它们的数学关系可以被表示为:
它的表达形式的确和线性回归模型非常类似,甚至连一般的AR(n)模型都和线性回归有很高的相似性。唯一的差别就是等式右边的自变量(X)变成了过去的因变量(y)
而正是因为这一点微小的差异,导致两者的解完全不同。在AR模型中,由于模型自变量成为了过去的因变量,使得自变量与过去的误差之间有相关性。而这种相关性使得
利用线性模型得到的AR模型的解会是有偏估计(biased)。对于上述结论的实际证明需要引入过多的概念。在此我们只对AR(1)模型作为一个特例来分析。不失一般性,我们可以通过平移数据将AR(1)模型表示成如下的形式:
对于这类模型,线性回归会给出以下的估计值:对于一般的线性回归模型而言,由于所有的自变量都会被视为已经观测到的真实值。所以当我们取均值的时候,我们可以把分母当作已知,通过过去观测值和未来误差无关的性质得到无偏的结论。
利用回归模型预测AR模型的数据模拟结果:参数估计会是有偏估计事实上,我们会用线性回归模型去近似求解AR模型。因为虽然结果会是有偏的,但是却是一致估计。也就是说,当数据量足够大的时候,求解的值会收敛于真实值。这里就不再做展开了。
忽视独立性的后果:金融方向的常见错误希望看到这里你已经弄懂了为什么不能混淆模型的假设:尤其是独立性或相关性的假设。接下来我会说一个我见过的
因为混淆假设导致的金融方向的错误随着机器学习的发展,很多人希望能够将机器学习和金融市场结合起来。利用数据建模来对股票价格进行预测。他们会用传统的机器学习方法将得到的数据随机的分配成训练集和测试集。利用训练集训练模型去预测股票涨跌的概率(涨或跌的二维分类问题)。然后当他们去将模型应用到测试集时,他们发现模型的表现非常优秀——能够达到80~90%的准确度。但是在实际应用中却没有这么好的表现。
造成这个错误的原因就是他们没有认识到数据是高度相关的。对于时间序列,我们不能通过随机分配去安排训练集和测试集,否则就会出现“利用未来数据”来预测“过去走向”的问题。这个时候,即使你的模型在你的测试集表现出色,也不代表他真的能预测未来股价的走向。
总结时间序列和回归分析的主要区别在于对数据的假设:回归分析假设每个数据点都是独立的,而时间序列则是利用数据之间的相关性进行预测。虽然线性回归和AR模型看上去有很大的相似性。但由于缺失了独立性,利用线性回归求解的AR模型参数会是有偏的。但又由于这个解是一致的,所以在实际运用中还是利用线性回归来近似AR模型。忽视或假设数据的独立性很可能会造成模型的失效。金融市场的预测的建模尤其需要注意这一点。
⑸ 怎么用excel对股票收盘价进行时间序列分析
最好附上内容
⑹ 如何用Arma模型做股票估计
时间序列分析是经济领域应用研究最广泛的工具之一,它用恰当的模型描述历史数据随时间变化的规律,并分析预测变量值。ARMA模型是一种最常见的重要时间序列模型,被广泛应用到经济领域预测中。给出ARMA模型的模式和实现方法,然后结合具体股票数据揭示股票变换的规律性,并运用ARMA模型对股票价格进行预测。
选取长江证券股票具体数据进行实证分析
1.数据选取。
由于时间序列模型往往需要大样本,所以这里我选取长江证券从09/03/20到09/06/19日开盘价,前后约三个月,共计60个样本,基本满足ARMA建模要求。
数据来源:大智慧股票分析软件导出的数据(股价趋势图如下)
从上图可看出有一定的趋势走向,应为非平稳过程,对其取对数lnS,再观察其平稳性。
2.数据平稳性分析。
先用EVIEWS生成新序列lnS并用ADF检验其平稳性。
(1)ADF平稳性检验,首先直接对数据平稳检验,没通过检验,即不平稳。
可以看出lnS没有通过检验,也是一个非平稳过程,那么我们想到要对其进行差分。
(2)一阶差分后平稳性检验,ADF检验结果如下,通过1%的显着检验,即数据一阶差分后平稳。
可以看出差分后,明显看出ADF Test Statistic 为-5.978381绝对值是大于1%的显着水平下的临界值的,所以可以通过平稳性检验。
3.确定适用模型,并定阶。可以先生成原始数据的一阶差分数据dls,并观测其相关系数AC和偏自相关系数PAC,以确定其是为AR,MA或者是ARMA模型。
(1)先观测一阶差分数据dls的AC和PAC图。经检验可以看出AC和PAC皆没有明显的截尾性,尝试用ARMA模型,具体的滞后项p,q值还需用AIC和SC具体确定。
(2)尝试不同模型,根据AIC和SC最小化的原理确定模型ARMA(p,q)。经多轮比较不同ARMA(p,q)模型,可以得出相对应AIC 和 SC的值。
经过多次比较最终发现ARMA(1,1)过程的AIC和SC都是最小的。最终选取ARIMA(1,1,1)模型作为预测模型。并得出此模型的具体表达式为:
DLS t = 0.9968020031 DLS (t-1)- 1.164830718 U (t-1) + U t
4.ARMA模型的检验。选取ARIMA(1,1,1)模型,定阶和做参数估计后,还应对其残差序列进行检验,对其残差的AC和Q统计检验发现其残差自相关基本在0附近,且Q值基本通过检验,残差不明显存在相关,即可认为残差中没有包含太多信息,模型拟合基本符合。
5.股价预测。利用以上得出的模型,然后对长江证券6月22日、23日、24日股价预测得出预测值并与实际值比较如下。
有一定的误差,但相比前期的涨跌趋势基本吻合,这里出现第一个误差超出预想的是因为6月22日正好是礼拜一,波动较大,这里正验证了有研究文章用GARCH方法得出的礼拜一波动大的结果。除了礼拜一的误差大点,其他日期的误差皆在接受范围内。
综上所述,ARMA模型较好的解决了非平稳时间序列的建模问题,可以在时间序列的预测方面有很好的表现。借助EViews软件,可以很方便地将ARMA模型应用于金融等时间序列问题的研究和预测方面,为决策者提供决策指导和帮助。当然,由于金融时间序列的复杂性,很好的模拟还需要更进一步的研究和探讨。在后期,将继续在这方面做出自己的摸索。
⑺ 数据挖掘相关问题
2.聚类结果{2,4,10,12,3,11}{20}{30,25}
3.移动平均结果
{10.83333333
10.33333333
11.16666667
10.33333333
11.83333333
12.5
10.83333333
11.33333333
10.5
11.33333333
9.833333333
9.166666667
}
4.预测股票价格的方法:时间序列方法
⑻ 时间序列预测方法有哪些分类,分别适合使用的情况是
时间序列预测方法根据对资料分析方法的不同,可分为:简单序时平均数法、加权序时平均数法、移动平均法、加权移动平均法、趋势预测法、指数平滑法、季节性趋势预测法、市场寿命周期预测法等。
1、简单序时平均数法只能适用于事物变化不大的趋势预测。如果事物呈现某种上升或下降的趋势,就不宜采用此法。
2、加权序时平均数法就是把各个时期的历史数据按近期和远期影响程度进行加权,求出平均值,作为下期预测值。
3、简单移动平均法适用于近期期预测。当产品需求既不快速增长也不快速下降,且不存在季节性因素时,移动平均法能有效地消除预测中的随机波动。
4、加权移动平均法即将简单移动平均数进行加权计算。在确定权数时,近期观察值的权数应该大些,远期观察值的权数应该小些。
5、指数平滑法即根用于中短期经济发展趋势预测,所有预测方法中,指数平滑是用得最多的一种。
6、季节趋势预测法根据经济事物每年重复出现的周期性季节变动指数,预测其季节性变动趋势。
7、市场寿命周期预测法,适用于对耐用消费品的预测。这种方法简单、直观、易于掌握。
(8)时间序列预测股票价格方法扩展阅读:
时间序列预测法的特征
1、时间序列分析法是根据过去的变化趋势预测未来的发展,前提是假定事物的过去延续到未来。运用过去的历史数据,通过统计分析,进一步推测未来的发展趋势。不会发生突然的跳跃变化,是以相对小的步伐前进;过去和当前的现象,可能表明现在和将来活动的发展变化趋向。
2.时间序列数据变动存在着规律性与不规律性
时间序列中的每个观察值大小,是影响变化的各种不同因素在同一时刻发生作用的综合结果。从这些影响因素发生作用的大小和方向变化的时间特性来看,这些因素造成的时间序列数据的变动分为四种类型:趋势性、周期性、随机性、综合性。
⑼ 时间序列预测法的步骤有哪些
时间序列预测法的有以下几个步骤。
第一步,收集历史资料,加以整理,编成时间序列,并根据时间序列绘成统计图。时间序列分析通常是把各种可能发生作用的因素进行分类,传统的分类方法是按各种因素的特点或影响效果进行分类:
①长期趋势;
②季节变动;
③循环变动;
④不规则变动。
第二步,分析时间序列。
时间序列中的每一时期的数值都是由许许多多不同的因素同时发生作用后的综合结果。
第三步,求时间序列的长期趋势(T)、季节变动(S)和不规则变动(I)的值,并选定近似的数学模式来代表它们。对于数学模式中的诸未知参数,使用合适的技术方法求出其值。
第四步,利用时间序列资料求出长期趋势、季节变动和不规则变动的数学模型后,就可以利用它来预测未来的长期趋势值T和季节变动值S,在可能的情况下预测不规则变动值I。然后用以下模式计算出未来的时间序列的预测值Y。
加法模式:T+S+I=Y乘法模式:T乘以S乘以I=Y
如果不规则变动的预测值难以求得,就只求长期趋势和季节变动的预测值,以两者相乘之积或相加之和为时间序列的预测值。如果经济现象本身没有季节变动或不需预测分季分月的资料,则长期趋势的预测值就是时间序列的预测值,即T=Y。但要注意这个预测值只反映现象未来的发展趋势,即使很准确的趋势线在按时间顺序的观察方面所起的作用本质上也只是一个平均数的作用,实际值将围绕着它上下波动。
⑽ 怎么用机器学习模型做时间序列预测
SVM理论是在统计学习理论的基础上发展起来的,由于统计学习理论和SVM方法对有限样本情况下模式识别中的一些根本性的问题进行了系统的理论研究,很大程度上解决了以往的机器学习中模型的选择与过学习问题、非线性和维数灾难、局部极小点问题等。应用SVM进行回归预测的步骤具体如下:
1)实验规模的选取,决定训练集的数量、测试集的数量,以及两者的比例;2)预测参数的选取;3)对实验数据进行规范化处理;4)核函数的确定;5)核函数参数的确定。其中参数的选择对SVM的性能来说是十分重要的,对于本文的核函数使用RBF核函数,对于RBF核函数,SVM参数包括折衷参数C、核宽度C和不敏感参数E。目前SVM方法的参数、核函数的参数选择,在国际上都还没有形成统一的模式,也就是说最优SVM算法参数选择还只能是凭借经验、实验对比、大范围的搜寻和交叉检验等进行寻优。实际应用中经常为了方便,主观设定一个较小的正数作为E的取值,本文首先在C和C的一定范围内取多个值来训练,定下各个参数取值的大概范围,然后利用留一法来具体选定参数值
股价时间序列的SVM模型最高阶确定
股价数据是一个时间序列,从时间序列的特征分析得知,股价具有时滞、后效性,当天的股价不仅还与当天各种特征有关,还与前几天的股价及特征相关,所以有必要把前几天的股价和特征作为自变量来考虑。最高阶确定基本原理是从低阶开始对系统建模,然后逐步增加模型的阶数,并用F检验对这些模型进行判别来确定最高阶n,这样才能更客观反映股票价格的时滞特性。具体操作步骤如下:假定一多输入单输出回归模型有N个样本、一个因变量(股价)、m- 1个自变量(特征),由低阶到高阶递推地采用SVM模型去拟合系统(这儿的拓阶就是把昨天股价当做自变量,对特征同时拓阶),并依次对相邻两个SVM模型采用F检验的方法判断模型阶次增加是否合适[ 7]。对相邻两模型SVM ( n)和SVM ( n+ 1)而言,有统计量Fi为:Fi=QSVR (n)- QSVR( n+1)QSVR (n)1N - m n - (m -1)mi =1,2,,, n(1)它服从自由度分别为m和(N - m n - (m -1) )的F分布,其中QSVR (n)和QSVR( n+1)分别为SVR ( n)和QSVR( n+1)的剩余离差平方和,若Fi< F(?,m, N-m n- (m-1) ),则SVM (n )模型是合适的;反之,继续拓展阶数。
前向浮动特征筛选
经过上述模型最高阶数的确定后,虽然确定了阶数为n的SVM模型,即n个特征,但其中某些特征对模型的预测精度有不利影响,本文采用基于SVM和留一法的前向浮动特征特征筛选算法选择对提高预测精度有利影响的特征。令B= {xj: j=1,2,,, k}表示特征全集, Am表示由B中的m个特征组成的特征子集,评价函数MSE (Am)和MSE (Ai) i =1,2,,, m -1的值都已知。本文采用的前向浮动特征筛选算法如下[9]:1)设置m =0, A0为空集,利用前向特征筛选方法寻找两个特征组成特征子集Am(m =2);2)使用前向特征筛选方法从未选择的特征子集(B -Am)中选择特征xm +1,得到子集Am+1;3)如果迭代次数达到预设值则退出,否则执行4);4)选择特征子集Am+1中最不重要的特征。如果xm+1是最不重要的特征即对任意jXm +1, J (Am +1- xm+1)FJ(Am +1- xj)成立,那么令m = m +1,返回2) (由于xm+1是最不重要的特征,所以无需从Am中排除原有的特征);如果最不重要的特征是xr( r =1,2,,, m )且MSE (Am+1- xr) < MSE (Am)成立,排除xr,令A'm= Am+1- xr;如果m =2,设置Am= A'm,J (Am) = J (A'm), ,返回2),否则转向步骤5);5)在特征子集A'm中寻找最不重要的特征xs,如果MSE (A'm- xs)EM SE (Am-1),那么设置Am= A'm, MSE (Am)= MSE (A'm),返回2);如果M SE (A'm- xs) < M SE (Am -1),那么A'm从中排除xs,得到A'm-1= Am- xs,令m = m -1;如果m =2,设置Am= A'm, MSE (Am) = MSE (A'm)返回2),否则转向5)。最后选择的特征用于后续建模预测。
预测评价指标及参比模型
训练结果评估阶段是对训练得出的模型推广能力进行验证,所谓推广能力是指经训练后的模型对未在训练集中出现的样本做出正确反应的能力。为了评价本文模型的优劣,选择BPANN、多变量自回归时间序列模型( CAR)和没有进行拓阶和特征筛选的SVM作为参比模型。采用均方误差(mean squared error, MSE)和平均绝对误差百分率(mean ab-solute percentage error, MAPE)作为评价指标。MSE和MAP定义如下:M SE=E(yi- y^i)2n( 2)MAPE=E| yi- y^i| /yin( 3)其中yi为真值, y^i为预测值, n为预测样本数。如果得出M SE, MAPE结果较小,则说明该评估模型的推广能力强,或泛化能力强,否则就说明其推广能力较差