白话统计学习笔记:我们应该使用什么统计模型?

物理学一直追求一个大一统理论(Grand Unified Theory, GUT),比如说爱因斯坦最早搞了一个狭义相对论,处理匀速直线运动的惯性参考系中的物理现象,后来他想着非惯性参考系下是什么情况呢?于是他搞出了一个广义相对论。于是,牛顿力学是狭义相对论在低速运动时的特殊情况,狭义相对论是广义相对论在匀速运动时的特殊情况,一切就被统一了。在白话统计的第10章中,我们也可以建立一个思维框架,将常用的统计学方法放在一个体系中。

先以常见的t检验,方差分析和线性回归这三者为例。乍看之下,t检验是两组之间比较,方差分析是多组之间比较,线性回归是自变量对因变量的影响,但实际上,通过引入虚拟变量,可以将它们归于一般线性模型(general linear model),模型如下

y=β0+β1x1+β2x2+...+βpxp+ϵy = \beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_px_p + \epsilon

根据x的类型,是分类变量还是连续变量,以及x的数目,就可以按图索骥,选择合适的模型

自变量个数与类型 一般线性模型的具体方法
1个二分类变量 t 检验
1个多分类变量 方差分析
2个(或多个)分类变量 多因素方差分析(不是多元方差分析)
1个连续变量 单因素线性回归
多个连续变量 多因素线性回归 (不是多元线性回归)
1个连续变量, 1个分类变量 协方差分析

一般线性模型统一了不同类型的自变量,但是要求因变量还是连续变量。为了统一不同类型的因变量,则需要广义线性模型(generalized linear model),模型如下

g(μ)=β0+β1x1+β2x2+...+βpxp+ϵg(\mu) = \beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_px_p + \epsilon

基于等式左边的连接函数(link function)的形式,我们得到了如下模型

资料类型 分布 g(μ)的具体形式 广义线性模型的具体方法
连续资料 正态分布 μ 线性回归模型
分类资料 二项分布或多项分布 ln(μ / (1 - μ)) 或 logit(μ) Logistic 回归模型
计数资料 Poisson 分布 ln(μ) Poisson 回归模型
计数资料 负二项分布 ln(1 - μ) 负二项回归模型

上述模型基本上还是“线性”的,对于真正的非线性数据,就需要广义可加模型

g(μ)=β0+f1x1+f2x2+...+fpxp+ϵg(\mu) = \beta_0 + f_1x_1 + f_2x_2 + ... + f_px_p + \epsilon

广义可加模型很容易出现过拟合的问题,给出的拟合曲线也难以用一个函数表示,它的作用体现在1)初步探索自变量与因变量的恰当关系;2)只是预测,不提供模型的具体形式。

广义线性模型除了要求“线性”外,还有一个重要前提,那就是“独立性”。例如,你测量了一个区域中所有人在一天中不同时间点的血糖水平,那么同一个人的血糖水平在不同时间点之间肯定是有影响。 亦或者,你调查多个地区,不同人的血糖水平,由于一个地区的人大抵是有类似的生活习惯,同一个地区的人的测量也未必是独立的。

不要求“独立性”的广义线性模型就是多水平模型(multilevel model)了,它在不同领域有不同的定义,例如分层线性模型(Hierarchical Linear Model), 混合效应模型(mixed effect model),随机效应模型(random effect model),随机系数模型(random coefficient model),方差成分模型(variance component model)等。

上述提到的模型,自变量和因变量都是明确的,同时变量还是已知的。但如果一个变量既可以是自变量也可以是因变量呢?或者说存在难以检测的变量呢?这就需要结构方程模型(Structural Equation Modeling, SEM)。

对于一个变量既可以是自变量也可以是因变量,比如说体重,血压和血糖,血压受到体重的影响,那它是因变量,同时它又影响了血糖,于是它又是自变量。为了描述这种变量,我们就可以使用内生变量(endogenous variable,会受到其他变量影响的变量)和外生变量(exogenous variable,不收任何变量影响,会影响其他变量)。这可以使用路径分析(Path Analysis)

对于难以检测的变量,比如说学习能力,幸福指数等,我们可以定义其为潜变量(latent variable),与之相对就似乎显变量(observed variable)。可以应用验证性因子分析(confirmatory factor analysis)

最后,基于自己的理解,如果要应用一个统计模型,我们需要问自己如下问题

  • 变量是否会相互影响?
  • 是否存在隐藏变量?
  • 自变量和因变量是什么类型?
  • 自变量是否独立?
  • 自变量有多少个?

想清楚了上面问题,使用什么模型也就有了答案了吧?

# 统计学 

评论

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×