tobit回归和一般线性回归的区别_tobit回归stata命令
tobit回归模型和逐步回归模型的区别
分层回归其实是对两个或多个回归模型进行比较。我们可以根据两个模型所解释的变异量的异来比较所建立的两个模型。一个模型解释了越多的变异,则它对数据的拟合就越好。如在其他条件相等的情况下,一个模型比另一个模型解释了更多的变异,则这个模型是一个更好的模型。两个模型所解释的变异量之间的异可以用统计显著性来估计和检验。
tobit回归和一般线性回归的区别_tobit回归stata命令
tobit回归和一般线性回归的区别_tobit回归stata命令
模型比较可以用来评估个体预测变量。检验一个预测变量是否显著的方法是比较两个模型,其中个模型不包括这个预测变量,而第二个模型包括该变量。如该预测变量解释了显著的额外变异,那第二个模型就显著地解释了比个模型更多的变异。这种观点简单而有力。但是,要理解这种分析,你必须理解该预测变量所解释的独特变异和总体变异之间的异。
一个预测变量所解释的总体变异是该预测变量和结果变量之间相关的平方。它包括该预测变量和结果变量之间的所有关系。
预测变量的独特变异是指在控制了其他变量以后,预测变量对结果变量的影响。这样,预测变量的独特变异依赖于其他预测变量。在标准多重回归分析中,可以对独特变异进行检验,每个预测变量的回归系数大小依赖于模型中的其他预测变量。
在标准多重回归分析中,回归系数用来检验每个预测变量所解释的独特变异。这个独特变异就是偏相关的平方(Squared semi-partial correlation)-sr2(偏确定系数)。它表示了结果变量中由特定预测变量所单独解释的变异。正如我们看到的,它依赖于模型中的其他变量。如预测变量之间存在重叠,那么它们共有的变异就会削弱独特变异。预测变量的独应指的是去除重叠效应后该预测变量与结果变量的相关。这样,某个预测变量的特定效应就依赖于模型中的其他预测变量。
标准多重回归的局限性在于不能将重叠(共同)变异归因于模型中的任何一个预测变量。这就意味着模型中所有预测变量的偏决定系数之和要小于整个模型的决定系数(R2)。总决定系数包括偏决定系数之和与共同变异。分层回归提供了一种可以将共同变异分配给特定预测变量的方法。
分层回归
标准多重回归可以测量模型所解释的变异量的大小,它由复相关系数的平方(R2,即决定系数)来表示,代表了预测变量所解释的因变量的变异量。模型的显著性检验是将预测变量所解释的变异与误变异进行比较(即F值)。
但是,也可以采用相同的方式来比较两个模型。可以将两个模型所解释的变异之作为F值的分子。如与误变异相比,两个模型所解释的变异别足够大,那么就可以说这种别达到了统计的显著性。相应的方程式将在下面详细阐述。
分层回归就是采用的这种方式。分层回归包括建立一系列模型,处于系列中某个位置的模型将会包括前一模型所没有的额外预测变量。如加入模型的额外解释变量对解释分数异具有显著的额外贡献,那么它将会显著地提高决定系数。
这个模型与标准多重回归的异在于它可以将共同变异分配到预测变量中。而在标准多重回归中,共同变异不能分配到任何预测变量中,每个预测变量只能分配到它所解释的独特变异,共同变异则被抛弃了。在分层回归中,将会把重叠(共同)变异分配给个模型中的预测变量。因此,共同变异将会分配给优先进入模型的变量。
重叠的预测变量(相关的预测变量Predictor variables that overlap)
简单地看来,由一系列预测变量所解释的变异就像一块块蛋糕堆积在一起。每个预测变量都有自己明确的一块。它们到达桌子的时间是无关紧要的,因为总有同样大小的蛋糕在等着它们。不同部分变异的简单相加就构成了某个模型所解释的总体变异。
但是,这种加法的观点只有在每个预测变量互相的情况下才是正确的。对于多重回归来说,则往往不正确。如预测变量彼此相关,它们就会在解释变异时彼此竞争。归因于某个预测变量的变异数量还取决于模型中所包含的其他变量。这就使得我们对两个模型的比较进行解释时,情况变得更为复杂。
方分析模型是建立在模型中的因素相互的基础上的。在ANOVA中,因素对应于多重回归中的预测变量。这些因素具有加法效应,变异(方)可以被整齐地切开或分割。这些因素之间是正交的。
但是,在多重回归中,变量进入模型的顺序会影响该变量所分配的变异量。在这种情况下,预测变量就像一块块浸在咖啡杯中的海绵。每一块都吸收了一些变异。在分层多重回归中,块浸入咖啡杯的海绵首先吸收变异,它贪婪地吸收尽可能多的变异。如两个预测变量相关,那它们所解释的变异就存在重叠。如果一个变量首先进入模型,那它就将重叠(共同)变异吸收据为己有,不再与另一个变量分享。
在标准多重回归中,所有预测变量同时进入模型,就像将所有海绵同时扔进咖啡杯一样,它们互相分享共同变异。在这种情况下,偏相关的平方(sr2)与回归系数相等,它们检验了相同的东西:排除了任何共同变异后的独特变异。这样,在多重回归中,对回归系数的T检验就是sr2的统计显著性检验。但是,在分层回归或逐步回归中,sr2不再与回归系数相等。但T检验仍然是对回归系数的检验。要估计sr2是否显著,必须对模型进行比较。
模型比较就是首先建立一个模型(模型a),使它包括除了要检验的变量以外的所有变量,然后再将想要检验的变量加入模型(模型b),看所解释的变异是否显著提高。要检验模型b是否要比模型a显著地解释了更多的变异,就要考察各个模型所解释的变异之是否显著大于误变异。下面就是检验方程式(Tabachnik and Fidell, 1989)。
(R2b-R2a)/M
F = ————————
(1+ R2b) /dferror
(2为平方,a,b为下标。不知道在blog里如何设置文字格式)
原文(DATA ANALYSIS FOR PSYCHOLOGY, George Dunbar)如此,但参考了其他书后,觉得这是误印,真正的公式应该是这样的:
(R2b-R2a)/M
F = ————————
(1- R2b) /dferror
注:
M是指模型b中添加的预测变量数量
R2b是指模型b(包含更多预测变量的模型)的复相关系数的平方(决定系数)。
R2a是指模型a(包含较少预测变量的模型)的复相关系数的平方(决定系数)。
dferror是指模型b误变异的自由度。
分层回归与向前回归、向后回归和逐步回归的区别
后三者都是选择变量的方法。
向前回归:根据自变量对因变量的贡献率,首先选择一个贡献率的自变量进入,一次只加入一个进入模型。然后,再选择另一个的加入模型,直至选择所有符合标准者全部进入回归。
向后回归:将自变量一次纳入回归,然后根据标准删除一个不显著者,再回归判断其余变量的取舍,直至保留者都达到要求。
逐步回归是向前回归法和向后回归法的结合。首先按自变量对因变量的贡献率进行排序,按照从大到小的顺序选择进入模型的变量。每将一个变量加入模型,就要对模型中的每个变量进行检验,剔除不显著的变量,然后再对留在模型中的变量进行检验。直到没有变量可以纳入,也没有变量可以剔除为止。
向前回归、向后回归和逐步回归都要按照一定判断标准执行。即在将自变量加入或删除模型时,要进行偏F检验,计算公式为:
(R2b-R2a)/M
F = ————————
(1- R2b) /dferror
SPSS回归所设定的默认标准是选择进入者时偏F检验值为3.84,选择删除者时的F检验值为2.71。
从上面可以看出,分层回归和各种选择自变量的方法,其实都涉及模型之间的比较问题,而且F检验的公式也相等,说明它们拥有相同的统计学基础。但是,它们又是不同范畴的概念。分层回归是对于模型比较而言的,而上面三种方法则是针对自变量而言的。上面三种选择自变量的方法,都是由软件根据设定标准来自动选择进入模型的变量。而分层回归则是由研究者根据经验和理论思考来将自变量分成不同的组(block),然后再安排每一组变量进入模型的顺序,进入的顺序不是根据贡献率,而是根据相应的理论设。而且,研究者还可以为不同组的自变量选用不同的纳入变量的方法。
分层回归在SPSS上的实现
在线性回归主对话框中,在定义完一组自变量后,在因变量不变的情况下,利用block前后的previous和next按钮,继续将其他变量组加入模型
线性回归方程和回归方程是一个概念吗?有什么区别?
线性回归方程和回归方程是两个概念!
但它们有【相容】关系。就好比 有理数和实数的概念、整数和有理数的概念不多。
回归方程是【大】概念,线性回归方程是【小】概念,线性回归方程被回归方程所包含。
什么叫多元回归?多元线性回归与一元线性回归相比较有何异同?
多元回归是两个或两个以上自变量与因变量之间建立回归关系的一种回归分析方法。多元线性回归与一元线性回归一样,都需要根据小二乘法使回归系数b达到小值,对Q求偏导数,并使这些偏微分方程等于0,建立正规方程组,求解得到(偏)回归系数和回归截距。二者都可以通过计算F值检验方程是否成立,(偏)回归系数的设检验都是通过计算回归系数标准误,进行F检验或t检验。二者之间不同点是:①自变量个数不一样,一元线性回归只有一个自变量,而多元线性回归则涉及两个或两个以上的自变量,这样回归系数的个数也就不一样多;②正规方程组的大小不一样,一元线性回归只需建立二元方程组就可以了,而多元线性回归则需建立m元正规方程组,并且一般需要通过求逆矩阵的方法进行求解;③回归方程和回归系数的检验不相同,一元线性回归方程的检验和回归系数的检验在实际效果上等价,而多元线性回归方程的检验实际上包含了多个自变量回归关系的检验,其回归自由度是m,而偏回归系数的检验仅仅是某一个自变量回归系数的检验,其回归自由度是1。当m=1时,多元线性回归也就成为一元线性回归了。
线性回归和逻辑回归的区别
线性回归和逻辑回归的区别:性质不同、应用不同。
一、性质不同。
1、逻辑回归:是一种广义的线性回归分析模型。
2、线性回归:利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
二、应用不同。
1、逻辑回归:常用于数据挖掘,疾病自动诊断,经济预测等领域。
2、线性回归:常运用于数学、金融、趋势线、经济学等领域。
线性回归要求因变量必须是连续性数据变量;逻辑回归要求因变量必须是分类变量,二分类或者多分类的;比如要分析性别、年龄、身高、饮食习惯对于体重的影响,如果这个体重是属于实际的重量,是连续性的数据变量,这个时候就用线性回归来做;如果将体重分类,分成了高、中、低这三种体重类型作为因变量,则采用logistic回归。
线性回归的特点:
线性回归是利用称为线性回归方程的小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。其表达形式为y=w'x+e,e为误服从均值为0的正态分布。回归分析中有多个自变量:这里有一个原则问题,这些自变量的重要性,究竟谁是重要,谁是比较重要,谁是不重要。所以,spss线性回归有一个和逐步判别分析的等价的设置。
回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
为什么要用tobit模型
以下是用tobit模型的原因:
Tobit模型是一种常用的回归分析方法,主要应用于存在截断数据的情况。截断数据是指因为某种原因而导致一部分观测值无法被观测到或记录下来的数据。例如,在某项研究中,只记录了大学生们每天学习时间超过1小时的数据,未能记录小于等于1小时的数据,那么观测只有在1小时之上的数据就是截断数据。
Tobit模型通常用于分析存在截断数据的因变量的影响因素。它的应用广泛,例如在经济学、医学、学等领域都有应用。常见应用的场景包括了解患者在某种疾病治疗中止治疗的决定因素,了解家庭的家庭收入及家庭消费等等。
Tobit模型以线性回归和极大似然估计为基础,可以解决一些其他回归模型不适用的问题。因此,它可以提供更准确的估计结果,从而能够给出更为全面的数据分析结论。
Tobit模型适用于以下具备条件的情况:
1、观测数据存在截断,例如,数据中存在被观测到和未观测到的情况,或者只记录了一个范围内的数据。
2、因变量是连续的有序变量。
3、因变量的值靠近一个上限或下限,或者,存在许多为零的值。
4、由于观察误等原因,数据产生了偏倚。
5、解释变量与因变量之间的关系是线性的。
基于以上条件,Tobit模型可以进行数据建模并计算出模型参数,从而推断影响因变量的解释变量,并给出模型的预测值。总的来说,Tobit模型是一种处理截断数据的有效方法,可以更地分析和预测数据,具有很高的实用价值和推广应用前景。
泊松回归与线性回归的关系
在Poisson回归模型中, 定方和均值相等, 当方大于或小于 均值时就会出现过散布(overdispersion)问题或欠散布 (underdispersion) 问题. 使用 Poisson回归模型时出现的散布问题的简单解决办法是使用提到的准 Poisson回归模型, 而且还可以说明方和均值的关系。准 Poisson 模型拟合代码示例:
glm(y~.,data,family=quasi(variance=“mu^2”,link=“log”))
这里的选项variance=“mu^2” 就把方看成随着均值平方变化的函数, 这个选项可以输入"constant", “mu(1-mu)”, “mu”, “mu^2”, “mu^3”, 等 等.
泊松回归和线性回归没有实质性的区别,都是寻找合适的参数去满足已有数据的规律.拟和出来的方程(模型)一般用来内计算或小范围的外.
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系 836084111@qq.com 删除。