Logistic regression tips: odds & odds ratio & related log values
Published:
This is a post about the understanding of odds, odds ratio and its related log values. Also, describe the relation with logistic regression results.
Odds
在统计概率理论中,odds表示一个事件或陈述的发生比,即一个事件发生和不发生的比例,用公式$\frac{p}{1-p}$表示 (其中p表示该事件发生的概率)。因此我们可以看出,odds只能是针对二值变量而言。
Odds ratio
表示两个发生比的比值,用公式$\frac{\frac{p1}{1-p1}}{\frac{p2}{1-p2}}$表示。实际上odds ratio是对probability的logit-transformation
log(odds)
即odds发生比的log值。
log(odds ratio)
之所以要用log表示odds ratio,是因为odds ratio本身的取值不好看,我们看到,当odds ratio分式中分母大于分子的时候,最终odds ratio的取值$\geq 1$,当分母大于分子的时候,取值$0\leq y \leq 1$。也就是说,对于这样一对odds ratio:$\frac{\frac{p1}{1-p1}}{\frac{p2}{1-p2}}$(I), $\frac{\frac{p2}{1-p2}}{\frac{p1}{1-p1}}$(II)来说,我们只是把分子分母倒过来,但是得到的值一个在0~1之间,一个比1大,直观上完全摸不到头脑。 因此人们想到用log值来代替,这样(I)就可以写成
\[log(\frac{\frac{p1}{1-p1}}{\frac{p2}{1-p2}})=log(\frac{p1}{1-p1})-log(\frac{p2}{1-p2})\]同理,(II)就可以写成
\[log(\frac{\frac{p2}{1-p2}}{\frac{p1}{1-p1}})=log(\frac{p2}{1-p2})-log(\frac{p1}{1-p1})\]我们不难看出两个log(odds ratio)值关于y轴对称,非常直观。
Logistic regression
R语言glm逻辑回归得到的coefficients中,estimate表示的就是log(odds ratio),因此为了获取odds ratio,我们需要使用命令exp(coef(glm_model)) (对于binomial二项逻辑回归)。 举例说明: 逻辑回归允许我们建立一系列自变量到一个二值因变量的转换关系,逻辑回归将一个logit-transformed二值变量建模成与多值变量之间的线性关系,如下方的公式所示:
\[logit(p)=log(\frac{p}{1-p})=\beta_0+\beta_1 x_1+...+\beta_k x_k, p=P(Y=1)\]因此,从公式中我们可以看出,每个变量的coefficient estimate=log(odds ratio)。对应的物理意义为:自变量增加一个单元(unit),会导致因变量的log(odds ratio)增加或减少多少。
PS
odds ratio与log(odds ratio)都可以用来表示逻辑回归模型的effect size,只不过odds ratio的物理意义更加明确。
references
StatQuest: Odds Ratios and Log(Odds Ratios), Clearly Explained!!!