请教Matlab中SVM回归预测问题

en . -s 3是回归模型:

svm回归预测 svm回归预测程序代码svm回归预测 svm回归预测程序代码


svm回归预测 svm回归预测程序代码


svm回归预测 svm回归预测程序代码


-s svm_type : set type of SVM (default 0)

0 -- C-SVC

1 -- nu-SVC

2 -- one-class SVM

3 -- epsilon-SVR

4 -- nu-SVR

==============

libsvm_options:

-s svm_type : set type of SVM (default 0)

0 -- C-SVC

1 -- nu-SVC

2 -- one-class SVM

3 -- epsilon-SVR

4 -- nu-SVR

-t kernel_type : set type of kernel function (default 2)

0 -- linear: u'v

1 -- polynomial: (gammau'v + coef0)^degree

2 -- radial basis function: exp(-gamma|u-v|^2)

3 -- sigmoid: tanh(gammau'v + coef0)

4 -- precomd kernel (kernel values in training_instance_matrix)

-d degree : set degree in kernel function (default 3)

-g gamma : set gamma in kernel function (default 1/k)

-r coef0 : set coef0 in kernel function (default 0)

-c cost : set the parameter C of C-SVC, epsilon-SVR, and nu-SVR (default 1)

-n nu : set the parameter nu of nu-SVC, one-class SVM, and nu-SVR (default 0.5)

-p epsilon : set the epsilon in loss function of epsilon-SVR (default 0.1)

-m cachesize : set cache memory size in MB (default 100)

-e epsilon : set tolerance of termination criterion (default 0.001)

-h shrinking: wher to use the shrinking heuristics, 0 or 1 (default 1)

-b probability_estimates: wher to train a SVC or SVR model for probability estimates, 0 or 1 (default 0)

-wi weight: set the parameter C of class i to weightC, for C-SVC (default 1)

-v n: n-fold cross validation mode

请教Matlab中SVM回归预测问题

en . -s 3是回归模型:

-s svm_type : set type of SVM (default 0)

0 -- C-SVC

1 -- nu-SVC

2 -- one-class SVM

3 -- epsilon-SVR

4 -- nu-SVR

==============

libsvm_options:

-s svm_type : set type of SVM (default 0)

0 -- C-SVC

1 -- nu-SVC

2 -- one-class SVM

3 -- epsilon-SVR

4 -- nu-SVR

-t kernel_type : set type of kernel function (default 2)

0 -- linear: u'v

1 -- polynomial: (gammau'v + coef0)^degree

2 -- radial basis function: exp(-gamma|u-v|^2)

3 -- sigmoid: tanh(gammau'v + coef0)

4 -- precomd kernel (kernel values in training_instance_matrix)

-d degree : set degree in kernel function (default 3)

-g gamma : set gamma in kernel function (default 1/k)

-r coef0 : set coef0 in kernel function (default 0)

-c cost : set the parameter C of C-SVC, epsilon-SVR, and nu-SVR (default 1)

-n nu : set the parameter nu of nu-SVC, one-class SVM, and nu-SVR (default 0.5)

-p epsilon : set the epsilon in loss function of epsilon-SVR (default 0.1)

-m cachesize : set cache memory size in MB (default 100)

-e epsilon : set tolerance of termination criterion (default 0.001)

-h shrinking: wher to use the shrinking heuristics, 0 or 1 (default 1)

-b probability_estimates: wher to train a SVC or SVR model for probability estimates, 0 or 1 (default 0)

-wi weight: set the parameter C of class i to weightC, for C-SVC (default 1)

-v n: n-fold cross validation mode

svm的模型越大,预测时间会不会变长

SVM理论是在统计学习理论的基础上发展起来的,由于统计学习理论和SVM方法对有限样本情况下模式识别中的一些根本性的问题进行了系统的理论研究,很大程度上解决了以往的机器学习中模型的选择与过学习问题、非线性和维数灾难、局部极小点问题等。应用SVM进行回归预测的步骤具体如下:

1)实验规模的选取,决定训练集的数量、测试集的数量,以及两者的比例;2)预测参数的选取;3)对实验数据进行规范化处理;4)核函数的确定;5)核函数参数的确定。其中参数的选择对SVM的性能来说是十分重要的,对于本文的核函数使用RBF核函数,对于RBF核函数,SVM参数包括折衷参数C、核宽度C和不敏感参数E。目前SVM方法的参数、核函数的参数选择,在上都还没有形成统一的模式,也就是说SVM算法参数选择还只能是凭借经验、实验对比、大范围的搜寻和交叉检验等进行寻优。实际应用中经常为了方便,主观设定一个较小的正数作为E的取值,本文首先在C和C的一定范围内取多个值来训练,定下各个参数取值的大概范围,然后利用留一法来具体选定参数值

股价时间序列的SVM模型阶确定

股价数据是一个时间序列,从时间序列的特征分析得知,股价具有时滞、后效性,当天的股价不仅还与当天各种特征有关,还与前几天的股价及特征相关,所以有必要把前几天的股价和特征作为自变量来考虑。阶确定基本原理是从低阶开始对系统建模,然后逐步增加模型的阶数,并用F检验对这些模型进行判别来确定阶n,这样才能更客观反映股票价格的时滞特性。具体作步骤如下:定一多输入单输出回归模型有N个样本、一个因变量(股价)、m- 1个自变量(特征),由低阶到高阶递推地采用SVM模型去拟合系统(这儿的拓阶就是把昨天股价当做自变量,对特征同时拓阶),并依次对相邻两个SVM模型采用F检验的方法判断模型阶次增加是否合适[ 7]。对相邻两模型SVM ( n)和SVM ( n+ 1)而言,有统计量Fi为:Fi=QSVR (n)- QSVR( n+1)QSVR (n)1N - m n - (m -1)mi =1,2,,, n(1)它服从自由度分别为m和(N - m n - (m -1) )的F分布,其中QSVR (n)和QSVR( n+1)分别为SVR ( n)和QSVR( n+1)的剩余离平方和,若Fi< F(?,m, N-m n- (m-1) ),则SVM (n )模型是合适的;反之,继续拓展阶数。

前向浮动特征筛选

经过上述模型阶数的确定后,虽然确定了阶数为n的SVM模型,即n个特征,但其中某些特征对模型的预测精度有不利影响,本文采用基于SVM和留一法的前向浮动特征特征筛选算法选择对提高预测精度有利影响的特征。令B= {xj: j=1,2,,, k}表示特征全集, Am表示由B中的m个特征组成的特征子集,评价函数MSE (Am)和MSE (Ai) i =1,2,,, m -1的值都已知。本文采用的前向浮动特征筛选算法如下[9]:1)设置m =0, A0为空集,利用前向特征筛选方法寻找两个特征组成特征子集Am(m =2);2)使用前向特征筛选方法从未选择的特征子集(B -Am)中选择特征xm +1,得到子集Am+1;3)如果迭代次数达到预设值则退出,否则执行4);4)选择特征子集Am+1中最不重要的特征。如果xm+1是最不重要的特征即对任意jXm +1, J (Am +1- xm+1)FJ(Am +1- xj)成立,那么令m = m +1,返回2) (由于xm+1是最不重要的特征,所以无需从Am中排除原有的特征);如果最不重要的特征是xr( r =1,2,,, m )且MSE (Am+1- xr) < MSE (Am)成立,排除xr,令A'm= Am+1- xr;如果m =2,设置Am= A'm,J (Am) = J (A'm), ,返回2),否则转向步骤5);5)在特征子集A'm中寻找最不重要的特征xs,如果MSE (A'm- xs)EM SE (Am-1),那么设置Am= A'm, MSE (Am)= MSE (A'm),返回2);如果M SE (A'm- xs) < M SE (Am -1),那么A'm从中排除xs,得到A'm-1= Am- xs,令m = m -1;如果m =2,设置Am= A'm, MSE (Am) = MSE (A'm)返回2),否则转向5)。选择的特征用于后续建模预测。

预测评价指标及参比模型

训练结果评估阶段是对训练得出的模型推广能力进行验证,所谓推广能力是指经训练后的模型对未在训练集中出现的样本做出正确反应的能力。为了评价本文模型的优劣,选择BPANN、多变量自回归时间序列模型( CAR)和没有进行拓阶和特征筛选的SVM作为参比模型。采用均方误(mean squared error, MSE)和平均误百分率(mean ab-solute percentage error, MAPE)作为评价指标。MSE和MAP定义如下:M SE=E(yi- y^i)2n( 2)MAPE=E| yi- y^i| /yin( 3)其中yi为真值, y^i为预测值, n为预测样本数。如果得出M SE, MAPE结果较小,则说明该评估模型的推广能力强,或泛化能力强,否则就说明其推广能力较

分类算法 - SVM算法

SVM的全称是Support Vector Machine,即支持向量机,主要用于解决模式识别领域中的数据分类问题,属于有监督学习算法的一种。SVM要解决的问题可以用一个经典的二分类问题加以描述。如图1所示,红色和蓝色的二维数据点显然是可以被一条直线分开的,在模式识别领域称为线性可分问题。然而将两类数据点分开的直线显然不止一条。图2和3分别给出了A、B两种不同的分类方案,其中黑色实线为分界线,术语称为“决策面”。每个决策面对应了一个线性分类器。虽然在目前的数据上看,这两个分类器的分类结果是一样的,但如果考虑潜在的其他数据,则两者的分类性能是有别的。

之前在b站看到一个非常好的介绍!!十分, 这是传送门

按照我自己的理解,以二维数据为例,我们喂给模型已经分类好的数据,那么设有一线条可以将此部分数据正确划分为2大部分,这样可以形成2个等式,即横线两边的数值归类为1或者-1,一般情况下可以求出间隔即无数个解,因此需要一个限定条件求出的那条线条。限定方式为:无数个解形成一个解的范围,距离边缘相等的那条线条即是解。

有时候本来数据的确是可分的,也就是说可以用线性分类SVM的学习方法来求解,但是却因为混入了异常点,导致不能线性可分,比如下图,本来数据是可以按下面的实线来做超平面分离的,可以由于一个橙色和一个蓝色的异常点导致我们没法按照线性分类支持向量机方法来分类。

以上讨论的都是在线性可分情况进行讨论的,但是实际问题中给出的数据并不是都是线性可分的,比如有些数据可能是曲线的。

那么这种非线性可分的数据是否就不能用SVM算法来求解呢?是否定的。事实上,对于低维平面内不可分的数据,放在一个高维空间中去就有可能变得可分。以二维平面的数据为例,我们可以通过找到一个映射将二维平面的点放到三维平面之中。理论上任意的数据样本都能够找到一个合适的映射使得这些在低维空间不能划分的样本到高维空间中之后能够线性可分。

当特征变量非常多的时候,在高维空间中计算内积的运算量是非常庞大的。考虑到我们的目的并不是为找到这样一个映射而是为了计算其在高维空间的内积,因此如果我们能够找到计算高维空间下内积的公式,那么就能够避免这样庞大的计算量,我们的问题也就解决了。实际上这就是我们要找的 核函数 ,即两个向量在隐式映射后的空间中的内积。

(1)对于边界清晰的分类问题效果好;

(2)对高维分类问题效果好;

(3)当维度高于样本数的时候,SVM 较为有效;

(4)因为最终只使用训练集中的支持向量,所以节约内存

(1)当数据量较大时,训练时间会较长;

(2)当数据集的噪音过多时,表现不好;

(3)SVM 不直接提供结果的概率估计,它在计算时直接使用 5 倍交叉验证。

(1)LR 与 SVM 都是分类算法;

(2)LR 与 SVM 都是监督学习算法;

(3)LR 与 SVM 都是判别模型;

(4)关于判别模型与生成模型的详细概念与理解,笔者会在下篇博文给出,这里不详述。

(5)如果不考虑核函数,LR 与 SVM 都是线性分类算法,也就是说他们的分类决策面都是线性的

这里需要说明的是,LR 也是可以用核函数的,因在 LR 算法里,每个样本点都必须参与决策面的计算过程,也就是说,如果在 LR 里也运用核函数的原理,那么每个样本点都必须参与核计算,这带来的计算复杂度是相当高的。所以在具体应用时,LR 很少运用核函数机制。

(1)损失函数不同;

(2)SVM 只考虑支持向量,而 LR 考虑全局(即远离的点对边界线的确定也起作用);

(3)在解决非线性问题时,SVM 采用核函数的机制,而 LR 通常不采用核函数的方法;

svm回归预测 svm回归预测程序代码


(4)SVM 的损失函数就自带正则(损失函数中的12||w||2项),这就是为什么 SVM 是结构风险最小化算法的原因,而 LR 必须另外在损失函数上添加正则项;

(5)LR是参数模型,SVM是非参数模型,本质不同。

(6)在训练集较小时,SVM 较适用,而 LR 需要较多的样本。

(1)LR 与线性回归都是广义的线性回归;

(2)线性回归模型的优化目标函数是最小二乘,而 LR 则是似然函数;

(3)线性回归在整个实数域范围内进行预测,敏感度一致,而分类范围,需要在[0,1]。逻辑回归就是一种减小预测范围,将预测值限定为[0,1]间的一种回归模型,因而对于这类问题来说,逻辑回归的鲁棒性比线性回归的要好。

(4)逻辑回归的模型本质上是一个线性回归模型,逻辑回归都是以线性回归为理论支持的。但线性回归模型无法做到 sigmoid 的非线性形式,sigmoid 可以轻松处理 0/1 分类问题。

(5)线性回归主要做预测,LR 主要做分类(如二分类);

svm回归预测 svm回归预测程序代码


如何使用libsvm进行回归预测

<1> 下载Libsvm、Python和Gnuplot。我用的版本分别是:Libsvm(2.8.1),Python(2.4),Gnuplot(3.7.3)。注意:Gnuplot一定要用3.7.3版,3.7.1版的有bug.

<2> 修改训练和测试数据的格式(可以自己用perl编个小程序):

目标值 维特征编号:维特征值 第二维特征编号:第二维特征值 ...

...

例如:

2.3 1:5.6 2:3.2

表示训练用的特征有两维,维是5.6,第二维是3.2,目标值是2.3

注意:训练和测试数据的格式必须相同,都如上所示。测试数据中的目标值是为了计算误用

<3> 分别使用Libsvm中的Windows版本的工具svmscale.exe进行训练和测试数据的归一化,svmtrain.exe进行模型训练,svmpredict.exe进行预测

(1)svmscale.exe的用法:svmscale.exe feature.txt feature.scaled

默认的归一化范围是[-1,1],可以用参数-l和-u分别调整上界和下届,feature.txt是输入特征文件名

输出的归一化特征名为feature.scaled

(2)svmtrtrain.exe训练模型

我习惯写个批处理小程序,处理起来比较方便。例如svm_train.bat中训练语句为:

svmtrain.exe -s 3 -p 0.0001 -t 2 -g 32 -c 0.53125 -n 0.99 feature.scaled

训练得到的模型为feature.scaled.model

具 体的参数含义可以参考帮助文档。这里-s是选择SVM的类型。对于回归来说,只能选3或者4,3表示epsilon-support vector regression, 4表示nu-support vector regression。-t是选择核函数,通常选用RBF核函数,原因在“A Practical Guide support vector classification”中已经简单介绍过了。-p尽量选个比较小的数字。需要仔细调整的重要参数是-c和-g。除非用 gridregression.py来搜索参数,否则只能自己慢慢试了。

用gridregression.py搜索参数的方法如下:

python.exe gridregression.py -svmtrain H:/SVM/libsvm-2.81/windows/svmtrain.exe -gnuplot C:/gp373w32/pgnuplot.exe -log2c -10,10,1 -log2g -10,10,1 -log2p -10,10,1 -v 10 -s 3 -t 2 H:/SVM/libsvm-2.81/windows/feature.scaled > gridregression_feature.parameter

注意:-svmtrain是给出svmtrain.exe所在路径,一定要是完整的全路径

-gnuplot是给出pgnuplot.exe所在路径。这里要用pgnuplot.exe这种命令行形式的,不要用wgnupl32.exe,这个是图形界面的。

-log2c是给出参数c的范围和步长

-log2g是给出参数g的范围和步长

-log2p是给出参数p的范围和步长

上面三个参数可以用默认范围和步长

-s选择SVM类型,也是只能选3或者4

-t是选择核函数

-v 10 将训练数据分成10份做交叉验证。默认为5

给出归一化后训练数据的全路径

搜索参数的过程写入文件gridregression_feature.parameter(注意别少了这个>符号啊)

根据搜索到的参数修改feature.scaled.model中的参数

(3)用svmpredict.exe进行预测

svm回归预测 svm回归预测程序代码


svmpredict.exe feature_test.scaled feature.scaled.model feature_test.predicted

其中feature_test.scaled是归一化后的测试特征文件名,feature.scaled.model是训练好的模型,SVM预测的值在feature_test.predicted中。

matlab使用libsvm工具箱回归预测不准确,怎么解决?

得看你数据特征是什么 以及你svm用的参数是什么

svm调参是一门学问,现在都不流行这个了

还有得看你数据是不是时间周期类型, 时间类型用普通的回归做效果也不会很好

用svm做回归预测,为什么预测值都是一样的

,要先看你建立的回归方程中各个自变量是否都具有显著预测作用;第二,你的回归方程预测效果如何,也就是决定系数R方有多大,如果预测效果,用方程计算出来的值和原始值肯定出入很大。除非R方等于1,否则不可能用方程预测出来的值都和原始值完全一样。

Matlab中libsvm回归怎么做时间序列的单步和多步预测

您好,很高兴为您解答。

a(1)=0;

fori=2:220

a(i)=0.6a(i-1)+randn;

end

train_t=1:200;

train=a(train_t);

train_t=train_t';

train=train';

test_t=1:203;

test=a(test_t);

test_t=test_t';

test=test';

[bestmse,bestc,bestg]=SVMcgForRegress(train,train_t,-3,11,-7,1,3,0.5,0.5,0.1);

cmd=['-c',num2str(bestc),'-g',num2str(bestg),'-p0.01-s3'];

model=svmtrain(train,train_t,cmd);

[trainpre,trainmse]=svmpredict(train,train_t,model);

figure;

holdon;

plot(train);

plot(trainpre,'r');

title('原来的训练数据的拟合1-200');

legend('原来的训练数据','训练数据预测拟合数据');

holdoff

[testpre,testmse]=svmpredict(test,test_t,model);

figure;

holdon;

plot(test);

plot(testpre,'r');

title('测试数据的预测1-203');

legend('测试数据','测试数据预测拟合数据');

holdoff

如若满意,请点击右侧【采纳】,如若还有问题,请点击【追问】

希望我的回答对您有所帮助,望采纳!

~ O(∩_∩)O~