微信直播

BioLINCC在心血管疾病研究领域中的应用

Published at: 2015年第1卷第S1期

王晓燕
关键词:

第一节   开放数据库BioLINCC的使用

1.  BioLINCC数据库

BioLINCC,即生物标本和数据采集信息中心(Biologic Specimen and Data Repositories Information CoordinatingCenter),是2008年由NHLBI建立的数据库,旨在帮助科研人员更便捷地获取研究数据,同时提高NHLBI资助项目的转化率。BioLINCC数据库包含两类数据,一是NHBLI生物标本数据,这类数据自1975年开始由血液疾病部门(Division of Blood resources)管理,一类是NHBLI数据,这类数据自2000年开始由心血管科学研究中心(Division of CardiovascularSciences)管理。图1概述了BioLINCC的组织流程。

图1. BiLINCC组织流程

NHBLI生物标本数据库负责获取、储存生物标本,同时将质量合格的生物样本分配给科研人员。早期BioLINCC生物数据库的标本主要包括血浆、血清以及全血,这些标本来源于研究供血和受血患者的几项临床研究。近几年,生物数据库还包含了来源于心血管、肺部疾病以及血液系统疾病研究的标本。

NHBLI临床研究数据主要来源于最近70多年以来的流行病学研究和临床研究,包含来自于145家中心临床注册研究和观察性研究的数十万患者数据。来源于临床注册研究的数据包含患者基线资料、中期随访信息、辅助研究以及预后资料(包含实验室检查)。流行病学研究数据包含在整个观察周期内获得的所有监测结果。其中部分数据集未必包含原始数据(比如心电图各导联信息、食物热量数据),这些原始数据将被整理成一些汇总数据或指标。研究人员或NHBLI认为无效的数据不能被提交至数据库。

  1. 1  BioLINCC官网:结构和功能

BioLINCC网址为:https://biolincc.nhlbi.nih.gov/。这一网址包含面向全部用户的公共信息和面向注册用户的个人空间。BioLINCC提供了NHLBI临床注册研究和流行病学研究的大量信息,既包含研究总结、参考文献和研究方案,也包含相关研究的深度信息,包括相关研究的延伸信息、BioLINCC模板以及利用该研究数据发表的文献集合。用户如申请相关数据,应成为注册用户。BioLINCC网站导航栏包括生物标本和数据资源(Biospecimen andData resources),使用手册和表格(Proceduresand Forms),新建或提交数据库(Build/submitNew Collection)(图2)。

图2. BioLINCC官网主页

其中,【生物标本和数据资源】工具栏包含概论(overview),BioLINCC数据来源的研究(studies),教学数据集(Teaching datasets),已申请数据再次使用申请说明(renew Existing Data UseAgreement),BioLINCC数据库相关文献(Publication),NIH资助机会(Funding Opportunities)、非BioLINCC资源(Non-BioLINCC Resources)。其中教学数据集是指无需付费即可免费使用的数据资源(需注册),包括Framingham Heart Study,DigitalisInvestigation Group (DIG),Childhood Asthma ManagementProgram (CAMP)这三项研究的数据。已申请数据再次使用申请说明,是指BioLINCC数据申请之后3年内失效,无法再次直接使用,申请者如需再次使用,应重新提交使用申请。【使用手册和表格】工具栏包含BioLINCC使用手册(BioLINCC Handbook)、数据使用申请表格(Forms)、批准使用同意书(Aggreement Templates)(图3)。

图3. BioLINCC工具栏

  1. 2  BioLINCC数据申请

申请BioLINCC数据需首先注册BioLINCC网站。如已经明确需使用哪一研究的数据库,可直接在首页输入研究名称进行检索(图4),检索页面可出现很多研究列表(图5),点击进入目标研究页面,可以看到目标研究的基本信息,包括研究类型、研究起止时间、更新时间、数据使用开放与禁忌、研究摘要等。

图4. 在首页检索目标研究

图5. 目标研究主页面

目标研究页面上方右侧或页面最下端,点击Request Specimens and/orData,即可开始申请BioLINCC数据(图6)。

图6. 申请BioLINCC数据按钮

申请使用的数据种类分为生物标本数据、研究数据、生物标本和相关研究数据,根据数据种类不同,所提交的申请资料也有不同,见表1。

表3.1不同数据类型提交的申请资料

此外,申请使用生物标本数据还需提供:研究项目缩写名称或昵称、申请单位类型(盈利或非盈利单位)、数据来源的目标研究、研究项目方案、所需生物标本数量、生物标本类型、生物标本最小体积(或DNA含量)、生物标本最佳体积(或DNA含量)、生物标本特殊需求(是否需防腐剂、其他特殊要求等)、生物标本对应的患者信息(纳入标准)、需求描述(包括研究目标)、拟分析指标、试验类型或平台类型、阐述计算生物标本数量的计算依据、生物标本是否用于商业目的、申请人是否是数据来源的目标研究参与人员、评论、研究项目正式名称、研究项目主要研究者(PI)和参与人员、申请单位信息等。

临床研究数据申请后,即等待NHLBI人员审批;生物标本使用申请后,还需通过专门的科学审批,研究人员应阐述拟进行研究的重要性、研究方法是否安全可行、研究团队是否有资质进行此项研究等等。

  1. 3  BioLINCC审批数据

数据申请后,BioLINCC将协调申请资料的审批工作,审批工作由NHLBI数据资源项目办公室进行审批。审批内容主要包括:申请使用的目标研究数据库与拟进行研究是否契合、伦理审批是否通过。

需要注意的是,研究人员获得数据后,应在每年的3月1日前通过邮件提交研究进度,也可在获得数据后任意时间节点在BioLINCC个人主页提交研究进度。此外,BioLINCC数据在申请后3年内有效,如数据使用已超过3年,研究人员仍希望继续使用时,需向BioLINCC提交再次使用申请资料(https://biolincc.nhlbi.nih.gov/requests/data-renewal-request/),包括伦理批件、如研究人员拟利用这一数据库开始新的研究,需重新提交研究方案。

第二节   BioLINCC在心血管疾病研究领域中的应用

  1. BioLINCC开放数据库使用案例

此处以2012年发表在Circulation 上的一篇文章为例阐述BioLINCC开放数据库在心血管疾病研究领域中的应用(图7)。

图7. BioLINCC开放数据案例

  1. 1   研究背景及思路解析

心血管疾病是人类死亡的主要原因之一,因此心血管疾病的防控至关重要。临床指南推荐使用【生存风险】(lifetime risk,LTR)这一指标作为评估个体长期风险的重要指标,LTR与传统统计方法相比更为优化。LTR是利用实际发病率估计宏(practical incidence estimator macro,PIE)进行计算,与传统统计方法相比,这一统计学方法将时间变量定义为年龄,观察间期定义为年龄段,只有在某一特定年龄段存在风险的患者才被纳入疾病风险预测,因此这一统计学方法可以将在不同时间点纳入的同一年龄段患者进行整合,从而分析这一年龄段患者的LTR。

高血压是心血管疾病的重要风险因素,且无论是在黑色人种还是白种人,心血管疾病(尤其是卒中)的发病风险都随血压升高而显著增加。但是,既往评估高血压对心血管疾病的LTR,均是根据血压的一次检测结果进行评估,为获得更可靠的风险评估结论,我们尚需获得血压指标的更多信息。目前已知,年龄越大,收缩压水平越高,而收缩压水平越高,收缩压升高幅度也越高。但是中年水平血压水平的变化幅度对心血管疾病的LTR会产生怎样的影响,目前尚不明确。

因此,本项研究的目的是评估血压水平、10年内血压的改变情况对不同年龄段患者的心血管疾病发生风险的影响。

本项研究的数据来自于以下7项研究:Atherosclerosis Risk in Communities(ARIC) Study、Framingham Heart Study (FHS)、Framingham Offspring Study (FOS)、HonoluluHeart Program (HHP)、Kaiser Permanente Study of theOldest Old、Cardiovascular Health Study (CHS)、Women’s Health Initiative Observational Study (WHI-OS)。其中,ARIC研究、FHS研究、FOS研究、HHP研究的数据均来自于BioLINCC数据库,其他研究的数据或是在ICPSR数据库中获得(Kaiser Permanente Study of theOldest Old),或是通过与目标研究的参与人员联系获取使用权限。

传统的独立风险预测因素研究套路分为以下几步:首先,根据预后不同分组比较,选取有价值的风险因素;随后,利用Kaplan-Meier生存曲线,分析不同风险因素对预后的影响;其次,还可利用单因素或多因素的Cox回归分析,探索影响患者预后的因素。本项研究则另辟蹊径:首先,并未简单利用传统方法预测高血压对心血管疾病风险的影响,而是利用优化的统计学方法探讨长期高血压对心血管疾病的影响;其次,由于高血压患者在治疗过程中血压水平是动态的,因此,研究人员分析了随访过程中血压水平的改变情况对心血管疾病的影响;再次,高血压在不同年龄段产生的风险影响并不相同,因此,研究人员进一步分析了不同年龄段的血压水平、血压变化情况对心血管疾病风险的影响。综上,本项研究利用优化的统计学方法、充足的流行病数据、严谨的设计思路,对血压水平和心血管疾病风险之间的关系进行了细致可靠的分析。

临床研究“套路“图解

图8. 临床研究“套路“图解

  1. 2   研究特色及统计学方法解析

本项研究旨在评估高血压水平及其改变情况对患者心血管疾病发病情况的长期影响。虽然已有研究表明高血压是心血管疾病的独立危险因素,但是既往研究中血压数据往往仅来自于一次血压检测,数据不够严谨可靠,且不能反应血压的动态变化对心血管疾病的影响。本项研究利用公共数据库,获得了同一个体不同时期的血压水平和变化情况。从而保证了这项研究的分析更加严谨可靠。此外,本项研究还有如下优点:

首先,研究人员利用公共数据库(BioLINCC、ICPSR,另有2项研究的数据来自于目标研究单位)获取了来自7项研究合计61585位患者、695394人年的数据,样本量充裕、随访时间超过10年。因此,本项研究的统计效力较强,结论具有较强的说服力。

其次,本项研究利用优化的统计学方法评估不同的血压水平和血压改变情况对心血管疾病发病风险的影响。LTR分析方法与传统统计方法相比,具有如下优势:1、生存分析时,并非简单使用随访时间,以本文为例,年龄不同的个体,血压对心血管疾病发病率带来的影响并不相同,简单使用随访时间进行分析会带来过多信息偏移。因此,LTR分析中,研究人员是以入选人群的年龄轴代替随访时间。这种统计学处理,保证了最终的结论是年龄对心血管疾病发病风险的影响,而非随访时间的影响。2、传统分析方法,往往将死亡作为一个事件,但是死亡原因也许并非我们感兴趣的因素引起,而这会带来一部分信息偏倚。以本文为例,也许患者在55岁后才发生高血压,但在55岁前却已发生心血管疾病,传统统计方法会将患者的高血压和心血管疾病产生因果关联,但事实并非如此。为此,为避免假阳性,LTR分析方法剔除了观察间期内没有罹患高血压的人群,保证了统计结果的可靠性。

再次,本篇文章层层深入、逻辑缜密。1、作者首先将入选人群按照年龄进行分层,每一分层的患者均具有基线的血压信息(14年前的血压水平),这些信息保证了作者可以在多个年龄分层(45、55、65、75岁)分析基线血压水平在不同性别、不同人种中对心血管疾病发病风险的影响。2、本项研究除了分析不同年龄段的基线血压水平对心血管疾病发病风险的影响外,还进一步针对55岁人群(也就是对应标题中的Middle-age)进行深入分析。在这一中年人群中,作者发现,中年高血压等级越高,长期心血管疾病发病率也就越高,而55岁人群高血压给心血管疾病发病率带来的风险与45岁人群高血压带来的风险相似。高血压等级越高,罹患心血管疾病的时间也就越短。此外,作者还对55岁人群中的不同人种进行分析,发现即使血压水平相当,黑人往往更早就罹患心血管疾病。3、由于个体的血压水平处于持续变化的过程,高血压患者经过治疗后血压可能控制良好,也可能收效甚微,因此研究人员又进一步在血压的改变情况对心血管疾病的影响。研究人员发现,55岁时血压正常或血压已恢复正常的人群,其罹患心血管疾病的风险为22-42%,低于55岁时罹患高血压的人群(42%-69%)。这提示临床医生有必要根据患者罹患高血压时间的长短,对其高血压和心血管疾病进行个体化治疗。

  1. 3   研究设计的优缺点

本项研究优点已在前文中详细阐述,总结如下:1、利用公共数据库,纳入充足的样本数据;2、利用优化的生存分析方法;3、数据分析层层深入、逻辑缜密。

但是本项研究仍然存在一些局限性:首先,由于黑种人随访数据的缺失,本项研究不能单独分析在黑种人群中血压变化对未来心血管疾病发生风险的影响;其次,本项研究仅对年龄、性别、以及人种进行分层分析,但是受限于统计学方法,本文不能对其他因素(如社会经济因素等)进行校正。再次,本项研究汇总了不同队列人群数据,因此数据异质性较大,比如,在不同队列研究中,不同降压和降脂治疗策略对于事件发生率会产生不同的影响,因此汇总后的数据分析结果也会产生一定程度的偏倚。

综上,善于利用公共数据库资源,从选题、研究思路、统计方法、论文撰写等几个方面精心雕琢,或许你也可以实现从科研新手到科研新星的华丽丽转身。


此文为《临床研究经典案例解析》作者招募活动投稿文章。

comments powered by Disqus

附件