中国专业家居装修装饰时尚门户网站
首页 >> 科技数码

logistic(logistics回归分析结果解读)

来源:峰值财经 发布时间:2023-06-07 浏览量:

一、常见的场景

在不少观察性研究中,虽然我们提出的问题很明确,但能够用来回答问题的样本量,并不是研究者说了算的。比如,小编的朋友打算研究某种不太常见的疾病D,看看患者起病时某一指标X1的水平,是否会影响院内不良事件Y的风险。到处搜罗了前后几年的数据,最终也只凑到了40人

当然,为了明确指标X1和院内结局Y的关联,我们通常需要把其他排除其他影响Y的因素,通过各种手段扣除他们对Y的影响,再看看X1和Y此时是否有关联。您可能马上就猜到了:用Logistic回归啊!没错,就是他了。上手就用,结果好解释。估计不少朋友都会想到这一招。

但是问题来了:我们只有40个患者,发生Y事件的也就17人。看着就心酸啊……但如果您已经是在顶尖医院了,那么这40个患者和17个结局,也许已经能够傲视不少人口有限的发达国家了。

样本量不够,Logistic回归还能不能做?

自信是有了,但样本量还是不够啊。我们有1个目标自变量X1,同时还有4个需要控制的混杂因素x2x3x4x5。问题来了,我们都知道Logistic回归有样本量的要求,按照EPV(event per variable)法,每个自变量至少需要5-10个较少的那个结局。如果我们只有17个人发了事件(17人在40人中属于较少的那类),按理说模型中自变量X的数量,不应该超过3个(最低要求5的3倍为15,17例只能满足大于15这个条件)。

1、代入身份1——把您自己想象成研究者:

5个自变量 vs 有限的样本量。想必很多朋友都会做一个选择,硬着头皮塞进Logistic回归试试看。小编的朋友也是这么做的,你别说,结果还挺好看,所有结果都在合理的、可解释的范围内。剩下的就是高高兴兴投稿了。

样本量不够,Logistic回归还能不能做?

2、代入身份2——把您自己想象成审稿人:

文章的方法一定要正确,否则结论也不可靠:

(1)“40人,17个结局,这样本量一看就没法支持有效的结论。”

(2)“这么几个人,还做多因素分析,这结果肯定有问题”

审稿意见:“样本量太小,不足以控制这么多变量进行Logistic回归,作者的样本量需要满足EPV的要求”

样本量不够,Logistic回归还能不能做?

二、到底谁对了,谁错了?

其实谁都没错。作者在样本量有限的时候,探索性的分析一下,肯定是没问题的。审稿人提出,样本量应该满足EPV的要求,也没啥问题。

真正的问题是,样本量不够EPV的要求:

(1)Logistic回归(或者其他多因素分析)能不能做?

(2)结果的p值和OR值都在合理范围内时,到底能不能用?

要回答这两个问题,我们还真得循序渐进的剖析一下。

1、EPV是用来干啥的?

我们都知道EPV是什么,简单说就是每个自变量X需要消耗几个(符合特定条件的)样本。自变量越多,样本量就需要的越大。通常EPV用来知道我们进行研究设计,在设计阶段,通过估计混杂因素、目标自变量的数量,从而推测出来我们这个研究需要多大的样本量。

说白了,EPV是用来估算样本量的。但是做过研究的您,一定有个直觉:样本量不够的时候,只要运气好,同样能得到统计学结论。没错,毕竟一旦p<0.05了,自然不存在任何“样本量不足,导致假阴性结论”的可能性了。阳性结果摆在那里,木已成舟,我们总不能指着“舟”说:“这木头可能做不了舟”吧。没错,能做结论了,说明样本量已经不重要了。

但是当审稿人真的提出了这个质疑,我们回复一个“木已成舟”估计也对付不过去。那就让我们接着看看。

2、为什么要满足EPV的条件?

不满足EPV,可以简单的理解为样本量不足。Peduzzi等于1999年发表在Journalof Clinical Epidemiology上的文章指出,样本量不足对Logistic回归带来的主要风险是complete separation(完全分离)和quasi⁃complete separation(半完全分离)这两种现象。表现在结果中应该是无法得到回归系数B,或者是Wald χ²过大(得到的p值巨小)。对于这两个问题和上述文献,高永祥等于2018年发表在《循证医学》杂志上的文章也有提及。而确保样本量满足EPV的需求,能够在很大程度上避免这一现象的发生。

换句话说,EPV就是为了避免得不到合理的系数/OR值,或者p值小的离谱。

3、此时到底能不能做Logistic回归,到底怎么解读?

从上面的逻辑看,当然还是可以试着做的。只不过一旦出现了complete separation(完全分离)或quasi⁃complete separation(半完全分离),说明此时的条件并不允许我们做Logistic回归。

所以,如果样本量只有这么多,那就大胆试着做一下。毕竟等到样本量符合条件,没准还得再来个十年八年,别说我没等不及升职称,就是病人也等不及有提示意义的结果嘛。

当然,看结果的时候,一定要关注有没有特别离谱的系数/OR值,或是特别奇怪的p值。只要都合理,那作为探索性分析的结果,还是可以拿出来说说的。这样的结果比比皆是,无论是中文还是英文论文,都有不少没有满足EPV还得到了认可的结果。

当然,考虑到严谨性,请务必加上说明:“本研究的样本量较小,并不满足EPV(Event Per Variable)的要求。因此结果可能不够稳健。但考虑到该类患者较为罕见,且结果具有一定可解释性,仍对其进行展示。该结果的可靠性尚需进一步研究的确证。”

样本量不够,Logistic回归还能不能做?
友情链接