前面的博客有介绍过对连续的变量进行线性回归分析,从而达到对因变量的预测或者解释作用。那么如果因变量是离散变量呢?在做行为预测的时候通常只有“做”与“不做的区别”、“0”与“1”的区别,这是我们就要用到logistic分析(逻辑回归分析,非线性模型)。

参数解释(对变量的评价)

发生比(odds): ODDS=事件发生概率/事件不发生的概率=P/(1-P)

发生比率(odds ratio):odds ratio=oddsB/oddsA       (组B相对于组A更容易发生的比率)

注:odds ratio大于1或者小于1都有意义,代表自变量的两个分组有差异性,对因变量的发生概率有作用。若等于1的话,该组变量对事件发生概率没有任何作用。

参数估计方法

线性回归中,主要是采用最小二乘法进行参数估计,使其残差平方和最小。同时在线性回归中最大似然估计和最小二乘发估计结果是一致的,但不同的是极大似然法可以用于非线性模型,又因为逻辑回归是非线性模型,所以逻辑回归最常用的估计方法是极大似然法。

极大似然公式:L(Θ)=P(Y1)P(Y2)...p(YN)            P为事件发生概率PI=1/(1+E-(α+βXI))

在样本较大时,极大似然估计满足相合性、渐进有效性、渐进正太性。但是在样本观测少于100时,估计的风险会比较大,大于100可以介绍大于500则更加充分。

模型评价

这里介绍拟合优度的评价的两个标准:AIC准则和SC准则,两统计量越小说明模型拟合的越好,越可信。

若事件发生的观测有n条,时间不发生的观测有M条,则称该数据有n*m个观测数据对,

在一个观测数据对中,P>1-P,则为和谐对(concordant)。P<1-P,则为不和谐对(discordant)。P=1-P,则称为结。

在预测准确性有一个统计量C=(NC-0.5ND+0.5T)/T,其中NC为和谐对数,ND为不和谐对数,这里我们就可以根据C统计量来表明模型的区分度,例如C=0.68,则表示事件发生的概率比不发生的概率大的可能性为0.68。

使用假设条件

①数据来自随机样本

②共线性敏感,自变量之间是非线性关系

③因变量只能取0、1

接下来看案例

大学生就业培训,高中生培训,在职人员转行培训,企业团训

        		

网友评论