微信直播

AME社长论坛|三谈 BCT(大数据临床研究)

Published at: 2015年第1卷第S1期

汪道远
关键词:

在此前的两篇文章中,我们先后两次讨论了“大数据临床研究(Big-data Clinical Trial,简称 BCT)”[1,2]:对于前瞻性随机对照研究(randomized control trial,简称 RCT)是否能在临床研究的“接力赛”中获胜及 BCT 的基本特征定义问题进行了阐述。本文就“数据结构”这个问题,再一次讨论 BCT 这个话题。总之,希望 BCT 能够肩负重任,赢得这场“接力赛”[3]。

以四个 V(Volume, Velocity, Variety, Veracity)为特征的大数据时代,临床数据至少在三个方面引起关注:一方面,单个病例的数据已经足够大,从诊断开始,到治疗,再到后续的随访,其全程数据都将被采集,包括基因测序等;另一方面,临床实践过程中,尽量多的病例(样本)数据被采集,即,真实世界的临床研究(real-world evidence study);第三,数据的结构呈现“阶梯形”,而不是“矩形”。之所以数据是“阶梯形”,是因为随着我们对某一疾病的认识不断加深,同一类疾病的参数(例如,新增加的“生物标志物”)不断增加。

Kenneth Cukier 在他的 TED 大数据演讲中介绍到:数据科学家利用大数据方法对乳腺组织标本镜下病理图像进行分析,演算结果发现 12 项指标可以预测肿瘤,而同时常规研究只纳入了其中的 9 项参数。因此,我们可以发现,大量的指标可能在研究的过程中被无意忽略了,随着时间的推移,针对同一类疾病所采集的临床数据会不断增加,进而呈现“阶梯形”数据库的结构形态。

目前的临床研究论文大部分都是基于对“矩形”数据进行统计分析的,例如,纵向是单个个体的数据编号(1,2,3…),横向是性别、年龄等各项参数(每个个体都纳入同样项数的参数,见“图1”中的矩形1、矩形2、矩形3)。 假设我们准备选择“矩形3”(图2),对这组数据进行统计学分析,“区域A”和“区域B”的数据就不能被纳入进行分析。

 


图1


图2

 

暂且,我们先不去讨论如何对“矩形3”+“区域A”+“区域B”的“阶梯形”数据进行分析。我们先思考摆在面前的两个问题:“区域A”和/或“区域B”的数据是否应该被纳入进去分析?如果纳入“区域A”和/或“区域B”的数据,其结果是否会发生改变?进一步地,如果以上这些问题不能够得到解决,怎样才能实现所谓的“精准医学”?

 

参考文献:

1.Wang SD. Opportunities and challenges of clinical research in the big-data era: from RCT to BCT. J Thorac Dis 2013;5(6):721-723.

2.Wang SD, Shen Y. Redefining big-data clinical trial (BCT). Ann Transl Med 2014;2(10):96.

3.汪道远. “RCT研究”与“接力赛”. 见:http://kysj.amegroups.com/articles/1144

 

文|汪道远,AME 出版社社长;沈亚星,AME 出版社副社长,AATS Graham fellow。

 

本文题图来自网络。

 

本文由「 AME 科研时间」首发,媒体转载请注明出处。让我们一起爱临床,爱科研,也爱听故事。

AME College 即将开课,现正火热报名中,名额有限,先到先得。欢迎点击链接,参与在线报名。http://wd.koudai.com/item.html?itemID=1453120521&p=-1

Doi:

10.3978/kysj.2014.1.975
comments powered by Disqus

附件