大流行危机期间瑞德西韦治疗COVID-19患者的中国临床试验数据监查
写在前面的话
3月7日,呼吸界在采访中日医院曹彬教授的对话中,曾经对正在进行的瑞德西韦治疗重症新冠肺炎的临床试验进度有过以下对话:
王一民:虽然我们目前不太了解最终的结果,那能不能有一些能够「透露」给我们的信息?
曹彬:我们现在瑞德西韦2的研究已经超过了230例,已经达到了中期分析所需要的样本量,但是「达到样本量」和「能进行中期分析」是完全两个不同概念意义,为什么呢?因为入组不代表就可以进行评价了,还需要28天的随访,当然也不代表就一定是28天,因为我们的终点是「只要达到临床结局」,我们就可以进行评价。所以,作为研究者,我们也很期待——这230多个病人都达到临床结局的时候,能不能出现一个节点?这个节点就能够让独立安全委员会做出一个客观的、科学的评价,如果真能达到这样一个结局时,我们就不需要入组453例病人了,有可能入组400例或者300例就可以了。
为了保证这项临床试验科学性和完整性,该项随机双盲安慰剂对照临床试验设置了一个独立的数据和安全监查委员会(简称DSMB),也就是上面曹彬教授提到的独立安全委员会,该委员会的设立不仅要保障受试者的安全,也要保证试验数据的完整性和研究结论的科学性,整个试验期间该委员会可以在非盲态下动态监测累积的与有效性和安全性相关的试验数据,并做出相应的建议,每次DSMB会议,除了公开会议内容可以让研究者获悉外,闭门会议内容一直处于保密之中,只有在临床试验揭盲后,完成统计分析并在专业杂志上发表临床试验结果后才得以解禁。近期,由本次独立数据和安全监查委员会的两位统计学家(美国罗格斯大学公共卫生学院施维中教授和北京大学临床研究所姚晨教授)联合撰写的有关「大流行危机期间瑞德西韦治疗COVID-19患者的中国临床试验数据监测」论文在药物信息学会(DIA)旗下的「Therapeutic Innovation & Regulatory Science」杂志上全文发表,文章以文献記录的方式回顾了关于数据与安全监查委员会(Data and Safety Monitoring Board,DSMB)对关键数据的监查过程,这些过程包括如何在紧急情况下基于对数据及分析的洞察力从统计角度及时对主要数据进行频繁监查并向申办方和研究者提出建议。
现在论文作者完成了中文翻译稿,在征得主要研究者同意后在呼吸界发布,让广大读者正确无误地了解曾经被称为「人民的希望」瑞得西韦治疗重症新冠肺炎临床试验数据和安全监查委员会工作内幕,从另一个侧面反映了DSMB视角下的瑞德西韦中国研究从开始到落幕的故事。
[1] Shih W, Yao C, Xie T. Data Monitoring forthe Chinese Clinical Trials of Remdesivir in Treating Patients with COVID‑19 During the Pandemic Crisis. Therapeutic Innovation &Regulatory Science, 2020.
大流行危机期间瑞德西韦治疗COVID-19患者的中国临床试验数据监查
施維中1§,姚晨2,谢泰亮3
1 罗格斯大学公共卫生学院,新泽西州,皮斯卡塔韦,美国
2 北京大学临床研究所,北京,中国
3 CIMS Global and Brightech International,萨默塞特郡,新泽西州,美国
§通信作者:Weichung J. Shih,shihwj@sph.rutgers.edu
摘要
在紧急COVID-19流行期间,中国研究人员在武汉医院进行了瑞德西韦+标准护理(standard of care,SOC)与安慰剂+ SOC的两项III期,随机双盲临床试验[ClincalTrials.gov NCT04257656和NCT04252664]。这些试验已在全球范围内备受期待。我们希望试验的研究者们将从医学的角度尽快报告临床和实验室检查结果。本文以-文獻記錄的方式回顾了关于数据与安全监查委员会(Data and Safety Monitoring Board,DSMB)对关键数据的监查过程,这些过程包括如何在紧急情况下基于对数据及分析的洞察力从统计角度及时对主要数据进行频繁监查并向申办方和研究者提出建议。通过对237位患者的序贯式监测,我们对研究设计的优缺点进行了评论,并对瑞德西韦对重度COVID-19病例的治疗效果提供了看法。我们的经验证明使用动态数据监测(Dynamic Data Monitoring,DDM)方法可以有效并可靠地支持DSMB在紧急情况下对关键数据实时了解的需求。DDM在被训练有素的统计学家正确使用,能够灵活探索试验数据的能力,同时可以保护试验的科学完整性。
关键词:临床试验监查;ICH;DSMB;eDMC;DDM;瑞德西韦;COVID-19大流行
一、引言
在2020年2月3日至6日,武汉市爆发新型冠状病毒(novel coronavirus,nCOV-2019)仅几周后,中国研究人员紧急启动了两项临床试验,以评估瑞德西韦治疗由病毒引起呼吸道疾病的成人住院患者方面的疗效和安全性。新型冠状病毒最近被称为COVID-19(世卫组织于2020年2月11日正式命名)。第一项试验是针对重症患者[1],第二项试验是针对具有轻度-中度症状的患者[2]。两项试验均是由中国医学科学院药物研究所赞助的随机、双盲、安慰剂对照、多中心研究。为了确保患者的利益以及试验申办方和研究者的客观性,他们在整个研究过程中对患者的治疗分配均被隐藏,由五个成员组成的数据与安全监查委员会(Data and Safety Monitoring Board,DSMB):2名医学专家, 1名流行病学家和2名统计专家均独立于试验的赞助者和研究者(有关DSMB成员的姓名,请参见致谢)。在申办方签约的临床合同研究组织(Contract Research Organization ,CRO)的支持下, DSMB的启动会议于2020年2月12日召开,会议审查了研究方案并批准了DSMB章程,在其中确定了随后的会议时间表,数据格式和监查指南。对于本文的其余部分,「背景」部分首先阐述了在紧急情况下设立DSMB的可行性问题和挑战,这些问题在正式启动会议之前已进行了讨论。其次,还描述了研究者方的顾问和DSMB之间在选择监测终点指标方面进行的讨论和交换。「方法」部分介绍了统计方法,I型错误概率保留策略,以及在这种紧急流行病情况下用于频繁数据监测的eDMC工具。在「结果」部分中,我们使用日记样式按日期记录每次数据监查 委员会(Data Monitoring Committee,DMC)会议,着重描述我们如何根据掌握的数据和观察到的趋势与申办方和研究者团队讨论,沟通和给出建议。最后,在「结论与讨论」部分中,凭借我们在连续监查237例患者的关键数据方面的经验,我们对试验设计的一些弱点和优势进行了评论,并对瑞德西韦对重症COVID-19病例的治疗效果提供了看法。在中国的瑞德西韦试验中该DSMB所获得的数据监查经验,应该可以为当前正在全球进行COVID-19试验的其他研究提供有意义的信息。
二、背景
1、DSMB的可行性和必要性的问题与挑战
申办方和研究者小组讨论了是否有必要为这两项全球预期的试验组成DSMB。一部分人认为, 鉴于武汉市的这一流行病,患者的招募会非常快,以至于没有时间或没有必要进行临时数据监测和审查。但是考虑到10天的治疗期和长达28天的随访期,以及瑞德西韦是一种研究药物,根据ICH药物临床试验质量管理规范(Good Clinical Practice,GCP)指南[3]和中国新药研发的法规[4],设立DSMB被认为是可行的和必要的。考虑到紧急情况,申办方强调,DSMB应该尽快获得有关该试验的累积疗效和安全性信息,以便DSMB可以做出快速、科学的决定。DSMB的真正挑战是要高效地进行数据传输,并以非常及时和科学的方式监查关键有效性和安全性数据。于是,DSMB选择使用eDMC系统与动态数据监测(Dynamic Data Monitoring,DDM)软件的统计工具对累积进行频繁监测;请参见后续部分中有关DDM的更多说明和使用。
2、启动会议:2020年2月11日
在第一次DSMB启动会议上,仅举行了公开会议,内容涉及关键人员的介绍,研究方案的提要,以及包括数据监查计划在内的DMC章程的讨论和批准。除了DMC成员,CRO数据经理和独立统计师外,其他参与者还包括申办方(医学科学院官员),主要研究人员(临床医生)及其学术顾问,以及吉利德科学(药品供应商)的代表。研究状态报告概述了武汉的3所医院/中心(计划的10个中)已将136名重症患者(计划的453例中)随机分配(瑞德西韦:安慰剂为2:1)[1]。一些中心准备在两天内接受轻度-中度病例的治疗方案[2]。因此, DSMB要求召开下一次会议,以期在7-10天内对重症病例的首次试验的基线、有效性和安全性数据进行审查。根据患者的入组情况,随后的数据监测原则上可以是每周一次或更短。
关键的讨论是在接下来的数据审查会议上,要监查哪些数据以及如何提出相应建议。DSMB要求提供基线特征,包括人口统计学,SPO2(脉搏血氧饱和度)水平以及从发作到随机化(接受药物治疗)的时间,这些是区分严重与轻度/中度COVID-19病例的两个主要特征,研究药物暴露和患者处置数据应该被审查。安全性数据包括临床不良事件(adverse events,AE),尤其要注意严重或高等级(严重性≥3)的AE。这些数据在公开会议中不显示治疗组识别号,而在仅存在DSMB成员和独立统计师的非公开会议中显示治疗组识别号。
在有效性数据方面,DSMB对要监查的终点指标和监查频率上存在不同看法。方案设计参考了世界卫生组织研发蓝图[5],并指定了主要有效性终点,即在第28天检查的临床改善时间(time to clinical improvement censored at Day 28,TTCI),定义为从研究治疗随机分组到6类序数等级下降到2类的时间(以天为单位)临床状态(1=出院;6=死亡)。请参见续集和即时方法部分中序数标度的完整说明。该方案还规定,一旦观察到所需的TTCI事件总数的一半,就应进行一次有效性和无效性的中期分析。但是,DSMB对TTCI的定义表示担忧。首先,对于严重的情况,其死亡风险可能很高,对于死者,TTCI将是无法定义的。28天的删失(censoring)规则对死者没有临床意义,可是把28天仍然生存但未达到2分改善的患者与死者的TTCI删失(censor)在28天是不太合理的。其次,患者可能会先下降然后在28天内逐渐增加。如果患者随后恶化,则选择首次达到两点下降的选择可能没有意义。第三,基线评分为2(住院治疗,不需要补充氧气)的患者可能无法改善两种类别,但方案并未将他们排除在外。(注意:在得知我们的关注之后,方案随后将TTCI修改为「两点下降或出院」)。因此,DSMB建议使用方案中指定的次要有效性终点来监查研究,这是6级序数尺度本身,在试验7, 14, 21天和第28天时由基线类别分层。
申办方还表示他们对中期分析计划不太满意。方案计划在TTCI事件达到一半时进行中期分析,并只做一次。申办方认为该计划并不能真正应对流行病的紧迫性。因此,DSMB提议使用动态监测方法对6类量表进行数据监测。该提案获得了普遍认可。在下面的「方法」部分中提供了有关此建议过程的更多详细信息。
三、方法
1、后续DSMB审查的动态监查过程
尽管方案指定的主要终点TTCI和基于TTCI的正式的一次性中期分析计划保持不变,但DSMB在2020年2月22日举行的第二次会议之前设计了以下监查程序。
要监查的终点是按基线量表分层的6类序数量表。研究方案中指定的序数等级为:6=死亡;5=住院,需要ECMO和/或IMV;4=住院,需要NIV和/或HFNC治疗;3=住院,需要补充氧气(但不需要NIV / HFNC);2=住院,不需要补充氧气;1=出院或达到出院标准(出院标准定义为临床恢复,即发烧,呼吸频率,血氧饱和度恢复正常和咳嗽缓解)。在每个DMC会议的公开会议上,仅显示6类量表的总体基线分布。
闭门会议的计划是使用分层的Wilcoxon-Mann-Whitney(WMW)秩和检验来比较治疗组的序数范围分布。随着试验的进行,以及患者的积累和治疗时间的延长,应监测试验的趋势。该计划将分布数据的条形图和WMW秩和检验显示在临床试验监测「雷达」屏幕上。「雷达」屏幕由条件概率的边界构成,以显示秩和检验是否处于「有利」(favorable)、「有希望」(promising) 或「不利」(unfavorable) 区域。eDMC系统中的动态数据监测(DDM)软件可简化WMW测试和条件概率的计算[6]。在「结果」部分中提供了具有相关条件概率的区域的更多详细信息。随着样本量不断增加(as patient being accumulated),WMW秩和的轨迹展现了试验结果的趋势。我们期望更多的数据在早期的时间节点,而较少的数据在后期的时间节点;这种数据监测方法仅是探索性的。当秩和检验显示出一致的强信号(即,落在有利区域内)时,才会触发对方案设计的主要端点TTCI的正式分析。随着时间的推移,我们希望更多的患者提供有后期的随访数据。大多数情况下,我们计划通过检查「雷达」图仅进行探索性分析。然而,在需要控制膨胀的假阳性率时,特别是在试验的后期阶段,当有足够数量的患者被登记/随访时,我们将在第7, 14, 21天和第28天检查多个秩和检验,DSMB选择使用Hochberg步进法[7]。用于保护该次要终点的整体α处于0.025(单侧,或双侧0.05)。
由于我们不知道何时以及多少次将触发TTCI分析,因此设计了成组序贯灵活的α消耗函数方法[8]以同样地将主要终点的总体α维持在0.025(单侧,或双侧0.05)水平。此外,由于患者快速入组并且试验时间相对较短的特点,并考虑到研究的紧迫性,因此我们选择了Pocock型α消耗功能作为主要终点。请注意,Pocock型α消耗函数是凹而不是凸的,这样更多的α会消耗在早期(信息)时间点,而较少的α会消耗在后期(信息)时间点,以此来适应该流行病的紧急情况。参见有关文献[9]关于选择α消耗函数的讨论。
四、结果
1、第二次DSMB会议(第一次数据审查):2020年2月22日
共有231例患者知情同意,其中有215例被随机分组(瑞德西韦组中为144例,安慰剂组为71例)。54名(25.1%)完成了为期10天的治疗,但还没有达到14天的随访时间。96天(44.7%)在10天的治疗期内;53(24.7%)尚未开始治疗。12名(5.6%)因包括AE(n=8)和其他(n=4)的原因而中止了治疗。
在闭门会议中,DSMB检查了开盲数据,两组之间的基线特征和AE比例相似。根据DSMB的医学专家判断,未观察到意外的不良事件。使用条形图检查分层的临床6类量表结果,并在动态「雷达」屏幕上显示分层的WMW秩和检验。例如,图1显示了第10天结果的条形图。(DSMB还要求在第3、5和7天添加其他条形图,但此处未显示。)大多数(n=118,或83%)患者的基线序数类别=3。4位患者的基线序数=2,有20位患者的基线类别=4,没有一个是类别=5。
【图1】DSMB第一次数据回顾:第10天按基线得分分配6类量表得分。绿色是安慰剂,红色是瑞德西韦。每组患者数:安慰剂51,瑞德西韦91。每组中位评分:安慰剂3,瑞德西韦3。
【图2】DSMB首次数据审查:第3天,通过分层Wilcoxon-Mann-Whitney秩和检验进行的动态数据监查Z评分以及入组患者的数量;将「有希望的区域」的上边界设置为条件概率(CP)=90%,将下边界设置为CP=5%。中间划线表示的CP=50%。
【图3】DSMB首次数据审查:第5天,通过分层Wilcoxon-Mann-Whitney排名和检验对患者入组人数进行动态数据监查Z评分;将「有希望的区域」的上边界设置为条件概率(CP)=90%,将下边界设置为CP=5%。中间划线表示的CP=50%。
【图4】DSMB首次数据审查:第7天,通过分层Wilcoxon-Mann-Whitney秩和检验对动态的数据监查Z评分以及入组患者的数量;将「有希望的区域」的上边界设置为条件概率(CP)=90%,将下边界设置为CP=5%。中间划线表示的CP=50%。
【图5】DSMB首次数据审查:第10天,通过分层Wilcoxon-Mann-Whitney秩和检验进行动态数据监查Z评分,纳入患者数;将「有希望的区域」的上边界设置为条件概率(CP)=90%,将下边界设置为CP=5%。中间划线表示的CP=50%。
图2,3,4,和5显示了分层WMW秩和检验(Z值)的运动的动态图作为分别在随机化后第3天,第5天,第7天和第10天累积的患者人数。将「有希望的区域」的上限设置为条件概率(conditional probability,CP)=90%,将下限设置为CP=5%。中间的虚线表示CP=50%。如图所示,与安慰剂相比(在第3、5、7天)瑞德西韦在临床量表上没有快速作用,但在第10天呈上升趋势。这个呈现为DSMB提供了一个充满希望的信息,DSMB建议一个星期后继续进行下次会议。请注意,与第7天不同,第3、5和10天的数据不是计划中的分析节点,而是由高效eDMC系统应即时要求提供给DSMB。补充数据为DSMB审查提供了有用的「趋势」信息。另外,这时,武汉的COVID-19流行病正在减缓,2月份该地区也开始进行其他许多研究,对患者资源形成竞争。面对入院人数下降的情况,DSMB建议研究者考虑加强招募患者的努力,并建议试验申办方重新评估研究完成日期的计划时间表(原始预测日期为2020年4月27日)。
DSMB还敦促研究人员验证患者的入排标准,特别是把关重症COVID-19的基线SPO2和/或PAO2 / FIO2水平。
另外:2020年2月21日,美国国家过敏和传染病研究所(NIAID)开展了一项多中心、适应性、随机盲法对照试验,其中涉及瑞德西韦用于治疗住院成人的COVID-19 [10],因为疾病正在全球迅速传播。瑞德西韦治疗方案与中国试验中的相同。DSMB注意到NIAID试验使用了类似的8类序数量表作为试验的主要终点。但是,住院随访时间为15天,比中国的28天要短。样本量为n=440,类似于中国重症病例试验的样本量n=453。
2、第三次DSMB会议(第二次数据审查):2020年2月29日
在会议之前,研究人员告知,参加轻度至中度病例试验的患者也受到COVID-19流行率下降的不利影响,这对疾病控制来说是幸运的,但对试验本身来说是个遗憾的消息。DSMB审查的重点仍然放在重症病例的第一项试验上。
共有228名患者被随机分组(瑞德西韦组为152名,安慰剂组为76名)。自7天前进行DSMB审查以来,仅招募了13位新患者。但是,更多的患者完成了10天的治疗,并在治疗后14天进行了随访。保留出院和死亡状态后,六类临床量表显示第10天有201例患者的数据,第14天有177例患者的数据,第21天有97例患者的数据。但是,大多数(191/228或83.8%)的基线类别=3。
在不良事件方面,总死亡人数=24(死亡率10.53%),平均分布在两个治疗组之间。未发现相关的不良事件,但DSMB注意到瑞德西韦组中止治疗的患者多于安慰剂组(13 / 149,8.7%,3 / 75,4.0%)。但是,接受瑞德西韦治疗的患者中有20/149(13.4%)出现严重AE,低于安慰剂组(15/75或20.0%)。
就有效性而言,出院总数为55(24.12%),在瑞德西韦组(40/152,或26.32%)高于安慰剂组(15/76,或19.74%)。6类临床量表分析增加了DSMB对试验的成功希望,如第14天的分层分布所示(条形图,图6;早期的其他条形图也由DSMB进行了检查,但此处省略了)以及在7, 10, 14天和21天的分层WMW秩和检验的动态「雷达」图(分别对应图7,8,9,10; 早期的其他图表也通过DSMB审查,但在此省略)。根据第14天进入有利区域的Z值(见图9),DSMB要求在下一次审核会议上显示TTCI终点指标的K-M(Kaplan-Meier)图(无P值)。总体而言,目前的监测似乎对瑞德西韦朝着有利的方向发展,但是DSMB仍对尚未收获的数据持谨慎态度,尤其是因为第21天的数据不足,并且缺乏与第14天保持一致的趋势,建议继续进行试验,DSMB敦促申办方重新评估研究完成日期的时间表以及主要终点TTCI上最初计划的中期分析策略。
【图6】DSMB第二次数据审查:在第14天时按基线得分划分的6类量表的分布。绿色是安慰剂,红色是瑞德西韦。每组的患者数:安慰剂59,瑞德西韦118。中位数:安慰剂3,瑞德西韦3。
【图7】DSMB第二次数据审查:第7天,通过分层Wilcoxon-Mann-Whitney秩和检验进行的动态数据监查Z评分以及入组患者的数量;将「有希望的区域」的上边界设置为条件概率(CP)=90%,将下边界设置为CP=5%。中间划线表示的CP=50%。
【图8】DSMB第二次数据审查:第10天,通过分层Wilcoxon–Mann–Whitney秩和检验对患者入组人数进行动态数据监查Z评分;将「有希望的区域」的上边界设置为条件概率(CP)=90%,将下边界设置为CP=5%。中间划线表示的CP=50%。
【图9】DSMB第二次数据审查:第14天,通过分层Wilcoxon-Mann-Whitney秩和检验进行动态数据监查Z评分,纳入患者数;将「有希望的区域」的上边界设置为条件概率(CP)=90%,将下边界设置为CP=5%。中间划线表示的CP=50%。
【图10】DSMB第二次数据审查:第21天,通过分层Wilcoxon-Mann-Whitney排名和检验对患者入组人数进行动态数据监查Z评分;将「有希望的区域」的上边界设置为条件概率(CP)=90%,将下边界设置为CP=5%。中间划线表示的CP=50%。
另外:该方案计划n=453名重病患者在2020年4月28日之前完成28天的研究。截至2020年2月28日,n=228随机分组,DSMB通知申办方在3月份,研究人员小组必须平均每天招募随机分组7或8位患者,以便在3月底完成目标入组。
3、第四次DSMB会议(第三次数据审查):2020年3月8日
共有235名患者被随机分组(瑞德西韦组为157名,安慰剂组为78名)。8天前的上一次DSMB审查仅招募了7名新患者。两组之间的基线特征具有可比性。在235例患者中,随机分配前有217例(92.3%)带有鼻导管或面罩,有27例(11.5%)带有高流量氧气,有15例(6.4%)进行了无创通气,有2例(0.9%)进行了有创通气作为呼吸支持。鼻导管或面罩的中位天数为3天,高流量氧气支持为2天。四名患者撤回了知情同意书。
两个治疗组之间的基线SPO2水平也相似。在室温下,不需要补充氧,SPO2范围为75至94%(235名患者中n=75;中位数=92%)。有氧补充时,SPO2的范围为37~100%( 235名患者中n=158;中位数=93%)。一位患者(安慰剂组)在基线时出现高碳酸血症呼吸衰竭,其SPO2为88%。
在安全性数据集(n=230)中,瑞德西韦组的26/153(17%)患者患有SAE,而安慰剂组为17/77(22.1%)。研究人员认为几乎没有SAE与药物相关(每组2个)。然而,如先前的DSMB评论中所述,与安慰剂组相比,瑞德西韦组比安慰剂组有更多的患者因AE停药(17/153或11.1%对3/77或3.9%)。死亡率为27/230(11.74%),较上次审查略有增加,但两组之间相当。
就有效性而言,尽管自上次评估以来仅招募了7名新患者,但有更多患者完成了10天的治疗并达到治疗后的第14天和第21天的随访。根据出院和死亡状况,六类临床量表在第10天累计了220例患者的数据,在第14天累计了218例患者,在第21天累积了197例患者,在第28天累积了143例患者的数据。仍然,主要是192/230,或83.5%基线组为3。因此,DSMB坚信对「临床改善」(TTCI终点)的分析需要通过对「临床无变化或恶化的分析」进行补充。DSMB使用分层WMW秩和检验对6类量表的分布进行的分析实际上是针对此的两面兼顾。
出院总人数为92(40.0%),瑞德西韦组(58/153,或37.91%)比安慰剂组(34/77,或44.16%)为低。与先前的数据审查相反,DSMB对此感到担心。检查了6类临床量表数据后,DSMB对此不如以前乐观,它们在以下意义上也令人失望,如第21天的分层分布所示(条形图,图11;早期的其他条形图也被DSMB检验,但这里省略了),以及在第10, 14, 21天和第28天的分层WMW秩和检验的动态「雷达」图(图)。(分别对应图12,13,14,15;DSMB也检查了较早日期的其他图表,但此处省略了)。第14天的秩和检验Z值似乎向下移动,虽然保持在「雷达」屏幕上的有利区域内。此外,第21天和第28天测试并没有加强第14天的结果,而是未进入对瑞德西韦的有利区域。eDMC系统应上一次会议的DSMB的要求,首次显示了TTCI的Kaplan-Meier图(无P值);TTCI的中位数约为23天,而瑞德西韦和安慰剂组分别为24天。1天的差异远低于试验方案中预期的6天的差异。
【图11】DSMB第三次数据审查:在第21天时通过基线得分划分的6类量表的分布。绿色是安慰剂,红色是瑞德西韦。每组的患者数:安慰剂68,瑞德西韦129。每组的中位数:安慰剂3,瑞德西韦2。
【图12】DSMB第三次数据审查:在第10天,通过分层Wilcoxon–Mann–Whitney秩和检验的动态数据监查Z分数以及所招募的患者人数,为条件概率(CP)设置了「有希望的区域」的上界=90%,并且下边界设置为CP=5%。中间划线表示的CP=50%。
【图13】DSMB第三次数据审查:第14天,通过分层Wilcoxon–Mann–Whitney秩和检验对动态数据进行监查的Z评分以及入组患者的数量,「有希望的区域」的上限设置为条件概率(CP)=90%,并且下边界设置为CP=5%。中间划线表示的CP=50%。
【图14】DSMB第三次数据审查:在第21天,通过分层Wilcoxon–Mann–Whitney秩和检验的动态数据监查Z分数以及所招募的患者人数,为条件概率(CP)设置了「有希望的区域」的上界=90%,并且下边界设置为CP=5%。中间划线表示的CP=50%。
【图15】DSMB第三次数据审查:第28天,通过分层Wilcoxon–Mann–Whitney秩和检验对动态数据进行监查的Z分数以及入组患者的数量。「有希望的区域」的上限设置为条件概率(CP)=90%,并且下边界设置为CP=5%。中间划线表示的CP=50%。
从申办方那里获悉,由于武汉市COVID-19病例持续下降,研究人员将无法招募新患者以达到方案规划的人数,DSMB建议申办方考虑将研究扩展到中国其他城市或其他国家的研究。否则,申办方需要修改方案:(a)由于招募人数下降的原因而改变计划的样本量;(b)取消TTCI的预定中期分析;(c)继续试验,直到所有随机分组的患者完成其28天的随访;(d)在3月底准备针对重症病例的DSMB最终审查会议。
其他:在2020年3月3日,吉利德公司推出瑞德西韦的两项临床试验[11,12]。对于中度病例[11],主要终点是5到10天出院时间。对于重症病例[12],主要终点是至第14天发烧和血氧饱和度正常的参与者比例。2020年3月11日,世界卫生组织宣布迅速传播的COVID-19暴发大流行。
4、第五次DSMB会议(第四次和最终数据审查):2020年3月29日
DSMB从申办方那里得到了信息,他们接受了DSMB有关对重症病例试验方案修订的以上建议。因此,这将是DSMB对重症病例数据的最后审查。轻度-中度患者的第二项试验尚不足以分析疗效数据。CRO仅提供基线和安全性数据。我们仍将重点放在以重症案例上:
随机分配了237例患者(瑞德西韦组158例,安慰剂组79例)。三周前的上一次DSMB审查仅招募了2名新患者。在237个研究中,有195个(82.3%)完成了研究,其中1个仍在进行中,有35个(14.8%)死亡,还有6个(2.5%)因死亡以外的原因退出研究。一名正在进行的患者将在2020年4月1日之前完成第28天的随访。
瑞德西韦组的意向性(ITT)治疗全因死亡率为24/158(15.2%),安慰剂组为11/79(13.9%),包括2名在接受瑞德西韦之前随机分组后死亡的患者和3名患者在第28天后死亡(安慰剂1例,瑞德西韦组2例)。这些比率低于同一研究者小组在洛匹那韦-利托那韦与SOC的试验中报告的相应比率(19.2%对25.0%)[13]。
在基线的6类序数量表上,类别1(出院或达到出院标准)至6(死亡),瑞德西韦组的分布(%)为(0、0、81.6、17.7、0、0.6)和安慰剂的分布为(0、3.8、83.5、11.4、1.3、0)。可以看出,多数(> 80%)是住院的第3类患者,需要补充氧气(但没有NIV / HFNC)。
与安慰剂组的57/77(74.0%)相比,瑞德西韦组的实时出院率继续较低(107/157,68.2%)。(记录了三个丢失的数据。)
尽管自上次审核以来仅招募了两名新患者,但有更多患者完成了10天的治疗,并在治疗后的第14、21和28天进行了随访。积累出院和死亡状况,该六类临床量表在第10天累计了228例患者的数据(第10天缺少一名患者),在第14天有229例患者,在第21天有227例患者,在第28天有225例患者(这6类数据不包括接受治疗之前发生的2例死亡和第28天之后发生的3例死亡。)
【图16】DSMB第四次数据审查:在第28天时按基线得分划分的6类量表。绿色是安慰剂,红色是瑞德西韦。每组的患者数:安慰剂76,瑞德西韦149。每组的中位数:安慰剂1,瑞德西韦1。
【图17】DSMB第四次数据审查:第10天,通过分层Wilcoxon–Mann–Whitney秩和检验的动态数据监查Z评分以及所招募的患者人数,为条件概率(CP)设置了「有希望的区域」的上界=90%,并且下边界设置为CP=5%。中间划线表示的CP=50%。
【图18】DSMB第四次数据审查:第14天,通过分层Wilcoxon–Mann–Whitney秩和检验对动态数据进行监查的Z评分以及入组患者的数量,「有希望的区域」的上限设置为条件概率(CP)=90%,并且下边界设置为CP=5%。中间划线表示的CP=50%。
【图19】DSMB第四次数据审查:第21天,通过分层Wilcoxon–Mann–Whitney秩和检验的动态数据监查Z分数以及入组患者的数量,确定了「有希望的区域」的上界作为条件概率(CP)=90%,并且下边界设置为CP=5%。中间划线表示的CP=50%。
【图20】DSMB第四次数据审查:第28天,通过分层Wilcoxon–Mann–Whitney秩和检验对动态数据进行监查的Z分数以及入组患者的数量。「有希望的区域」的上限设置为条件概率(CP)=90%,并且下边界设置为CP=5%。中间划线表示的CP=50%。
图16显示了第28天的6类量表的分层分布。(DSMB也检查了较早日期的其他分布条形图,但此处省略了)。图17,18,19,和20上显示了在第10、14、21和28天分层的WMW测试的「雷达」屏幕。(其他早些天的也被DSMB检查,但是这里没有显示。) 与之前的数据回顾相比,观察到了相似的趋势,但更多的受试者证实了这一趋势。第10、14、21和28天的分层WMW测试的Z值均在「有希望的」区域内,条件把握度仅从上面接触50%,然后在21和28天降低到50%(折线)以下。条件把握度是根据当前观察到的治疗效果来预测如果试验继续进行到原计划的435样本量,最终Z值是否会超过1.96(即未调整多重性的统计学意义)的概率。然而, 根据21和28天的结果,条件把握度降低到50%(折线)以下。
DSMB还审查了TTCI端点的Kaplan-Meier图(无P值)。瑞德西韦组的中位TTCI为22天,而安慰剂组为24天。令人失望的2天差异比协议中预计的6天差异小得多。
在通常情况下,我们会建议继续进行试验, 甚至增加样本量。但是,不幸的是,申办方无法切实可行地继续在大流行开始的中国以外地区招募患者。因此,DSMB同意以目前的237名随机分组的患者完成研究。DSMB建议让最后一名进行中的患者在揭盲之前完成第28天的随访。DSMB还敦促研究人员小组在与国际社会分享试验结果后,尽快做出最终分析。
五、结论与讨论
总之,国际跨学科专家合作以及互联网会议和高效数据监测工具的使用保证了研究参与者的利益,满足了申办方的迫切需求,并在特殊情况下保护了试验的完整性。TTCI的正式中期分析未触发,因为事件数量不多,并且由于及时控制了中国的COVID-19流行,该研究提前终止。但是,根据237位患者的数据,我们认为仍然可以从研究设计以及瑞德西韦对COVID-19重症病例的治疗效果中提取有价值的信息。最终的医学报告将很快出现在柳叶刀期刊[14]上(脚注1)。
对于2020年3月29日的最终数据,相对于安慰剂组, 瑞德西韦组的死亡率稍高些,而出院率稍低些。此外,在3, 5和7天「雷达」屏幕上观察到的六类尺度上的WMW秩和检验的Z值是负的。而相比安慰剂组,瑞德西韦组的中位TTCI却缩短了2天。对于这种不一致的一个解释可能是随机的因素,因为尽管没有进行正式的计算,没有一个以上的数值比较可以通过通常的统计显着性水平。另一个原因可能是TTCI删失(censor)死亡病例在第28天,以至于中途死亡病例比生存但未达到2分改善的病例获得公平意义的TTCI。第三种解释可能是TTCI只着眼于改善方面而忽略了恶化方面,而83.5%的患者处于6类量表的中间,可以朝任何方向发展。使用TTCI作为主要终点是本研究设计的弱点。
28天的随访时间是重症病例的试验设计的重点。对于为期10天的治疗方案,数据清楚地表明,瑞德西韦在重症病例的治疗7天之内没有立即起效。在第14天就显示出对临床改善的最佳效果。但是,这种效果似乎在第21天和第28天都没有持续。仅10天的疗程可能不足于重症病例。如果试验设计为仅随访14天,则无法发现这种后来效果不能持续的现象。NIAID和Gilead Sciences分别进行的试验[10,12]为期14天(脚注2)。
最后,我们使用DDM的经验证明了其在支持DSMB在紧急情况下即时检查次要有效性终点和关键安全性数据方面的效率和可靠性。DDM在训练有素的统计学家正确使用中,显示出能够灵活探索试验数据的能力,同时可以保护试验的科学完整性。
六、脚注
1. 该医疗报告于2020年4月29日在线发布。
2. 后来这两项试验修改了研究时间。
七、致谢
作者要感谢DSMB的成员:瞿介明(上海瑞金医院院长),Weichung Joe Shih(罗格斯大学公共卫生学院),Robert Fowler(多伦多大学),Rory Collins(牛津大学)和姚晨(北京大学); 独立统计学家:阎小妍(北京大学)和Bin Shan(泰格医药CRO);和eDMC程序员:Peng Zhang,Emy Wang(CIMS Global)。
符合伦理标准
八、利益冲突
本文中所表达的观点和经验只反映了作者的观点,而不一定是整个DSMB。作者宣称没有利益冲突。
本文完
排版:Jerry
注:本文来自“呼吸界”。