数据是否准确可靠,尤为关键,这是meta分析的基础,否则即使有先进的统计学方法,也不能弥补数据本身的缺陷。所以在收集数据时,应广开渠道,通过多途径收集,确保数据全面完整;同时采用有效的质控措施,如多人同步提取数据,防止选择性偏倚;最后对数据资料的真实性要进行严格评价,在此基础上,满足上述要求后方可进行meta分析。一般数据类型可以分为以下五大类。
一、二分类数据
对于每一个干预组只有非此即彼的两种结果,如死亡/存活;成功/失败;有效/无效;发生/未发生,可以计算OR,RR,RD等。
Meta分析中,二分类变量汇总的是发生率,死亡率,有效率这些数据,所以,对于二分类变量,我们至少需要收集:试验组事件数,试验组样本量;对照组事件数和对照组样本量。
用于计算二分类数据的效应指标有比值比,相对危险度,危险差,可以根据研究类型,研究目的进行合理选择。
比值比OR:又称优势比,是测量疾病与暴露关系强度的重要指标,是某组某事件的比值与另外一组相同事件的比值之比。根据流行病学不同研究设计类型,获得不同的比值比。队列研究与随机对照研究可以获得发病比值比;病例-对照研究可以获得暴露比值比,横断面研究可以获得患病比值比。
相对危险度RR:是指两组事件率之比,反应干预或暴露与事件关联强度的最有用的指标。RR仅用于RCTs与队列研究。
危险差RD:又称归因危险度AR,绝对风险差,绝对风险减低率ARR,是指干预或暴露组与对照组结局事件发生概率的差值。RD仅用于RCTs与队列研究。
针对二分类数据,经典Meta分析采用的统计学方法有:固定效应模型一般采用Mantel- Haenszel(M-H)法、倒方差法 、Peto法;随机效应模型采用的方法为DerSimonian-Laird(D-L)法。近年来,随机效应模型的出现多更先进的方法,如最大似然 (ML)法、截面似然(PL)法和限制性最大似然 (REML)法;以及非参数策略,称为“排列法”;新近,Meta回归模型、多水平模型等混合效应模型也用于二分类数据的Meta分析中。
二、连续型数据
统计学上的连续性指在某一特定范围内取任意值,每一个测量结果都是一个具体的数值。在meta分析中,连续性变量是身高,体重,血压,淀粉酶等指标,描述这些数据常用的指标是均数,标准差,样本量。
所以,对于连续型变量,我们至少需要收集:试验组的均值,标准差,样本量;对照组的均值,标准差和样本量。
有时候,因为纳入研究没有报告上述具体的数据,报告了其他统计量,例如下面几种情况,我们也是可以获取我们想要的数据。
1.从标准误和可信区间获得标准差
2.通过标准误,可信区间,t值,P值获得标准差
3.有时候合并数据时,可能要对原始数据进行转化后再进行。
4.中位数与四分位间距
5.极差
6.合并亚组
三、计数数据
在统计学中,数据按照变量值是否连续可以分为连续型数据和离散型数据,离散型数据的特点是观察值只能取非负整数;间距增加是根据计数而非范围。计数数据是离散型数据中一类重要的数据。例如:哮喘发作次数,入院次数,心梗次数,补牙数目,妇女生育子女的个数......
计数数据可根据具体情况(如属于罕见事件还是常见事件,可视为二分类,连续型,时间事件数据等)进行meta分析。
对于罕见事件计数数据,常用指标是率,率常常与观察时间跨度内事件发生的次数有关。
如果能确定每一干预组的研究对象及至少经历一次事件研究对象的数量可以考虑将结果作为二分类数据提取,可以分别将干预组和对照组的数据整理为事件发生一次或一次以上的人数,无事件发生的人数2×2四表格数据,按照二分类数据方法进行meta分析。
如果罕见事件不止一次发生,则可以其作为第一次事件发生时间数据来处理,视为时间事件数据,采用生存分析。
对于常见事件计数数据,如蛀牙,牙齿脱落等,可以按照连续型数据来处理干预效果,可以用均数来表示。
注意:对于计数数据,最为常见的错误是直接将发生事件,样本量/研究对象或随访人/年作为二分类数据提取。
四、有序数据
在医学上,有很多有序分类结果,如治愈/好转/有效/无效/恶化,疾病严重程度分轻/中/重......
对于有序数据的Meta分析,可以根据原始文献作者采用的分析方法,有3种处理方法:
①在实践中,如果有序分类较多或尺度较长,则视为连续型数据,进行Meta分析,可以采用均数差和标准差等效应指标。
②如果有序分类较少或尺度较短,则通过合并相邻的分类,变为二分类数据,进行Meta分析,可以采用OR、RR.RD等效应指标。
③如果原始尺度分类比较少,则可以采用比例优势(proportionaloddsratio)模型进行分析,该策略比将数据二分化分析更有效能,但需要一定的统计学知识和统计软件。生
五、生存数据
生存数据又称为时间事件数据,如:死亡时间,疾病进展时间或者是某些特殊临床意义的疾病事件如中风发生的时间。
在生存分析中常用的指标是风险比HR,是指两个风险率的比值,反映的是两个风险率之间的差别,差别是由各种变量引起的,如干预,性别,环境等,一般首先需要确定一个基准的风险率。
总的来说此类数据可以用lnHR及其标准误,合并效应量来计算。