在统计学中,有一个非常有名的悖论,即辛普森悖论(Simpson’s Paradox),它得名于英国统计学家爱德华·辛普森(Edward H. Simpson),这是因为他在1951年的一篇论文中首次描述了这一现象(当然,这种统计现象的观察和讨论实际上可以追溯到更早)。
辛普森在他的论文中通过具体的例子展示了如何在不同的条件下,数据的聚合可以颠倒分组分析的结果。这个悖论强调了分析数据时考虑分层(stratification)重要性,以及数据分析中潜在的混杂变量(confounding variables)如何影响结论的可靠性。
一个数学表达是:
不过还是看一个具体的案例吧,假设有两位医生,医生A和医生B,他们分别治疗了两种不同严重程度的病例:轻微和严重。我们来看看他们的治疗成功率。
- 医生A治疗了100个轻微病例,成功了90个(成功率90%),并且治疗了10个严重病例,成功了1个(成功率10%)。
- 医生B治疗了10个轻微病例,成功了9个(成功率90%),并且治疗了100个严重病例,成功了20个(成功率20%)。
如果我们仅看总体成功率,不考虑病例的严重程度,我们得到:
医生 | 总治疗病例数 | 总成功数 | 总成功率 |
---|---|---|---|
A | 110 | 91 | 82.7% |
B | 110 | 29 | 26.4% |
显然医生A的医术非常高明,远远胜过医生B。但是如果我们分组讨论,事情就完全不同了,在轻微病例中,两位医生的成功率都是90%,在严重病例中,医生B的成功率(20%)实际上是医生A成功率(10%)的两倍。
医生 | 病例类型 | 治疗总数 | 成功数 | 成功率 |
---|---|---|---|---|
A | 轻微 | 100 | 90 | 90% |
A | 严重 | 10 | 1 | 10% |
B | 轻微 | 10 | 9 | 90% |
B | 严重 | 100 | 20 | 20% |
因此,当病例按严重程度分组时,医生B在每一类病例中的表现都不逊于医生A,甚至在严重病例中表现更好。这就是辛普森悖论的一个典型示例:分组分析和整体分析得出完全相反的结论。
为什么要说到这个辛普森悖论呢?主要是引出单细胞在分完大群后,我们都需要细分亚群,然后会在亚群中比较不同组之间的细胞类型的变化。那么此时,我们应该是考虑到所有细胞作为分母,还是亚群本身的细胞总数作为分母呢?
假设有两个组(组1和组2),他们的细胞总数都是1000个,接着我们发现组1中A群细胞是100个,组2中A群细胞200个。对这个A群细胞做亚群聚类后,找到一个小群A1, 在组1中是30个,在组2中是40个。
当我们使用所有细胞作为分母时,组2的A1比例高于组1(4% > 3%)
- 组1的A1比例 = (30 / 1000 = 3%)
- 组2的A1比例 = (40 / 1000 = 4%)
仅使用A群细胞作为分母,组1的A1比例实际上高于组2(30% > 20%)。
- 组1的A1比例 = (30 / 100 = 30%)
- 组2的A1比例 = (40 / 200 = 20%)
那么此时,你应该解读这个数据呢?毕竟无论你需要什么结果,都有一个数据符合你的需求。无论是使用所有细胞作为分母还是亚群本身的细胞总数作为分母,都有其合理性和局限性。具体选择哪种方法取决于研究的目的和具体的科学问题。例如:
- 所有细胞作为分母:这种方法可能更适合于评估整体群体中特定亚群的绝对丰度。它能够提供关于在整个样本中,某个亚群相对于所有细胞的比例的信息,这对于理解该亚群在总体中的重要性很有帮助。
- 亚群细胞总数作为分母:这种方法则更侧重于分析特定亚群内部的细分情况,它能更细致地反映出在特定亚群内部,不同小群之间的相对比例变化。这对于理解亚群内部的细胞类型的分布和动态变化非常关键。
另外,我还想要说一个观点,孤证不立。无论是你从那种角度出发,你都应该还需要额外的证据。比如说,很可能这一次是抽样误差导致的,你再做一次重复,结果或许就不一样了。或者做做空间转录组,免疫组化,bulk去卷积,都可以作为一些补充证据,总之不要过早下结论。
参考资料: