本文及后续的相关文章将讨论如何识别临床试验中的非正常以及虚假数据。 Buyse 等人在其文章《The role of biostatistics in theprevention, detection and treatment of fraud in clinical trials†》中对临床试验中的虚假数据作了很好的总结,其中还提出了如何用统计学识别异常数据的建议。JMP-Clinical包含特定的分析模块,能够帮助统计学家、数据管理者以及数据监测人员识别出可疑的受试者或临床试验点,然后进行更严格的审查。
事实上,虚假数据一般很难被诊断出来。通常我们会采取数据可视化来查找有问题的数据--比如某个临床试验中心的数据趋势和形态可能与其他的临床试验中心的差异很大。这就需要我们对得到的这些图表进行查看比较,而对于异常情况的鉴定不同的分析员可能有不同的判断标准。更进一步,他们对这些差异的分析可能会突出其他潜在的问题,--他们会将其仅仅归结于临床试验实施过程的不同(理想情况是不同的临床试验中心应该尽可能的采用标准化流程),或者研究对象人群的差别。更糟的是,他们也可能会强调差异是由研究本身的设计和数据收集的缺陷导致的。
举一个简单的例子,参加临床试验的病人接受了很好的医疗护理,有时甚至还会得到经济补偿。有些受试者可能会因为持续的治疗需要或额外的资金补助会选择再次在其他的实验中心参加同样的临床试验。而这类重复参加研究的受试者是存在问题的。从统计学的角度看,其违背了研究对象之间相互独立的假设前提。如果我们忽略了受试者的非独立性,则有可能导致处理因素效应的标准误被低估。又或者如果我们在招募完所有的受试者后发现这些错误,则可能会导致分析效能的降低,因为往往最简单明了的处理重复数据的方法就是只选取每个受试者的第一组数据(由此会导致样本量的降低)。灵敏度分析可能会包括这些重复的数据资料。在任何情况下,如果存在重复受试者的情况,研究分析和报告的难度便会大大增加。
那么如何识别这些重复参加临床试验的受试者呢?比较直观的方法可以通过出生日期或者名字缩写来匹配找寻哪些研究对象是重复的。见图1。这是利用Nicardipine数据,以及JMP Clinical的“出生日期和名字缩写”平台运行得到的结果。结果中的受试者或者是通过出生日期或者是通过名字缩写匹配得到的,JMP Clinical中的可以选择模糊匹配,因为很有可能手误写错出生日期或者漏掉名字缩写中的某个字母。如果通过匹配到的两条数据中的性别和种族信息不同的话,我们就可以快速判断这些受试者的数据是干净的,无需进行下一步诊断。如果变量够丰富,JMP-Clinical还可以将种族、身高、体重等其他信息也添加到这张表格里。

如上图所示,虽然前两行研究对象出生日期相同,但是性别明显不同,因此前两行不是同一个试验对象。而出生年月为1928年7月28日(第7行和第8行)的这两行数据可能就需要进一步审查。最后的两个出生日期为1956年10月18日的观察对象,他们的性别和种族完全一致,而且居然都在同一个地点参加临床试验!我们可以通过show subjects下拉菜单来浏览DM/ADSL数据中其它的信息,进一步了解具体情况。比较糟糕的一种可能是病例报告被重复提交(可能是马虎导致的),还有一种可能是有一对双胞胎参加了该临床试验。
通过上面的分析结果,我们可以看到基于出生日期和名字缩写匹配来识别重复受试者有可能会产生误报情况。正如经典的“生日问题”所指出的,57个人中至少有两个人的生日相同的几率为99%。不过这种情况发生时,我们可以借助受试者的背景信息和其他重要特性变量快速识别和排除重复数据。