40万亿GB的医疗数据,如何助力新药研发?


发布时间:

2019-08-02

 

  今年5月,国家药品监督管理局药品审评中心(CDE)发布《真实世界证据支持药物研发的基本考虑》(意见稿),意味着“如何将真实世界证据(RWE)纳入到我国药物研发和监管决策中”,开始成为监管层正式思考以及着手推动解决的问题。

  一时间,行业热议:“RWE究竟能解决哪些临床问题?RWS要整合哪些数据?RWD采集及处理流程是否留痕可追溯?其数据分析的方法学又是什么?”......

  要回答这些直面从监管到落地的“灵魂拷问”,让真实世界证据真正“为我所用”,首先要解决的就是医学数据库的问题。

  对此,在7月29日,中国生物统计2019年学术年会上,医疗大数据及人工智能企业零氪科技(LinkDoc)创始人兼CEO张天泽以“我国医学数据库现状和挑战”的议题,给出了来自行业一线探索和实践者的思考和经验分享。

  产业需求是真正的驱动力量

  “在过去一段时间,有几种力量在驱动着医学数据库的发展。”

  首先是“技术驱动”。据IDC Digital预测,到2020年,医疗数据量将达40万亿GB,这是2010年的30倍。在过年十年时间里,医疗信息化迎来大发展,为人类沉淀了大量的“原始材料”,“就像未经冶炼的原油”,而接下来医疗数据化的阶段,是基于海量数据信息化,服务价值输出的关键和必由之路。

  其次是“政策推动”。2016年国务院办公厅发布《关于促进和规范健康医疗大数据应用发展的指导意见》,2017年又发布《关于促进“互联网+医疗健康”发展的意见》,再到2018年国家卫健委发布《国家健康医疗大数据标准、安全和服务管理办法(试行)》……简单梳理下来,三年左右时间里,国家累计发布30+政策文件,将健康医疗大数据纳入国家大数据战略布局,加速我国医学数据资源共享利用。

  最后,也是最重要的是“需求牵引”。

  药品研发与评价、医药营销与流通、商业健康险、辅助诊断与辅助治疗、基因数据分析、医学专业继续教育、临床科研服务、药品监管、公共卫生管理……在医疗的各个领域,数据都可以发挥巨大价值。“医疗数据平台和资源,处于新医疗产业的枢纽位置,在个体化、精准诊疗的时代意义尤其巨大。”

  也正在这种强劲需求的牵引下,我国诞生了一些特定功能数据库与特定人群数据库,如医学文献数据库、生物信息数据库、临床医疗数据库、保险支付数据库,等等。

  “但产业的需求和牵引,其实才是真正的力量。”

  重大疾病药物研究需求的大力牵引

  今天,尤其在医药研发领域,这股牵引的力量正拉扯的愈发剧烈。

  有数据显示,肿瘤药物I期到III期试验的时间为9.6年,从首次申请专利到上市耗时10.5年,2018年每种肿瘤新药的平均成本达到26亿美元,研发成功率下降至8.0%。

  “精准治疗时代的到来,临床试验难度加大,患者入组难度加大,药物研发的时间成本和财务成本显着上升,而且药物适用的患者人群非常细分、离散,临床诊疗难度变高,患者管理难度变大。此外,适应症开发的竞争与商业的竞争,正在成为两个平行的主战场,中长期直接影响商业开发的潜力。”

  可以说,重大疾病药物研究需求的快速增加,带来专病数据库的巨大需求。

  在美国,ASCO就倡导和推动了北美多个肿瘤RWD数据平台的发展,如CancerLinQ、Flatiron等。国际医药巨头罗氏分别以21亿和24亿美元收购了?Foundation和Flatrion,以推动真实世界数据在医药研发中的应用。从中可见一斑。

  我国也一直在积极探索科研级医学数据库的建立。如,中国队列共享平台(China Cohort Consortium),但它的开放程度较低;全国肿瘤登记中心(National Central Cancer Registry),它的数据每年以报告形式来公布,而且不完全以临床研究或者药物经济学研究为目标建立。

  整体而言,我国数据库普遍缺乏以患者为中心的全景、长效数据。而可应用于药物研发的专病队列要求病历原件的完整度十分高,病历原件不仅包括院内数据,还有院外数据。院内数据又包括院内信息系统数据以及科室沉淀数据;院外数据则包括院外处方数据以及随访等数据。以NSCLC患者的病历原件为例,需要包涵确诊入院、手术、术后辅助治疗、复发转移、基因检测、1~n线治疗、生存数据等全流程数据。

  “患者治病的过程,就像一个孩子在吃面包,面包屑掉了一地,就要跟踪一路把这个面包屑收起来,这样才可能产生高质量科研级数据。”

  期待和现实的差距

  所以,当真正捡拾起一块块的“面包屑”,拼接完整,价值就是巨大的。

  在2018年世界肺癌大会上,法国Brest大学医院的多中心、非干预的回顾性队列研究,评估了真实世界中纳武单抗治疗伴脑转移晚期NSCLC的颅内有效性。研究结果显示,免疫治疗在合并脑转移的NSCLC患者中显示出非常有前景的疗效。

  在2019年4月4日,辉瑞乳腺癌新药Ibrance基于真实世界数据,获批男性乳腺癌适应症,震动整个医药界。

  看到真实世界数据在医药研发领域的潜力,2019年5月,CDE发布《真实世界证据支持药物研发的基本考虑》(征求意见稿),确定了RWE在罕见病治疗药物、修订适应症或联合用药范围、上市后药物的再评价、中药医院制剂的临床研发、指导临床研究设计、精准定位目标人群等场景中的应用。引发行业热议。

  很多人在期待真实世界数据能解决行业的需求和痛点。

  “然而……期待和现实,总是有一些差距。”

  在理想情况下,应用真实世界数据经过数据提取、模型建立,就直达深度学习、人工智能。而现实是,应用真实世界数据,需要跨过一个个沟沟壑壑,包括需求讨论、提取数据、数据清洗、错失值处理、特征工程、模型评估……

  越过沟沟壑壑

  如何才能越过真实世界数据应用的沟沟壑壑?

  “打造出真实、可信、可用的真实世界临床数据库,需解决病历量大、非结构化、随访困难、行业无标准、安全性等五大问题。”

  建立疾病模型是首要的,“给每一个疾病设定一个通用式疾病模型,一个基础模型中有不同的域,每个域里有不同的变量,每个变量要设计出相关的约束。”

  接下来,可以利用人工+人工智能相结合的方式,对海量数据进行深度结构化处理,可以数倍、数十倍甚至百倍地提高数据处理速度,大幅度降低数据处理成本,并保障质量。在极为重要的随访数据集成过程中,如零氪(LinkDoc)基于算法分配随访任务,随访数据与临床数据实时打通,患者个人信息脱敏,隐私充分保护,实现全程100%录音,随访成功率达80%+。

  “做好数据的结构化、随访,只是起点。”接下来还需要依据国际临床研究CDISC标准 ,建立的数据处理流程,最终使得真实世界原始医疗数据,转化为科研级的标准数据库。

  同时,在数据库的应用过程中更要严格遵守“数据物理隔绝,访问权限控制,应用数据分层管理,患者知情授权”的规范化路径。

  基于这样的真实世界数据库,数据的价值就可以充分兑现。

  高质量的数据库可以应用于大型的临床研究,助力中国癌症新药研发;通过创新的模式,助力创新药开展药品重点监测;建立多中心数据平台,帮助专家在顶级学术期刊上发表高质量的学术文章,等等。

  最后,张天泽认为,真实世界数据库是基于临床病历,但远远不止于临床病历。“一个真实、可信、可用的临床数据库,需要清晰的目标、整体的设计、扎实的质量控制,三者缺一不可。”或许也只有这样,才可以回答那些“灵魂拷问”,让真实世界证据真正为临床诊疗、药物研发及医药产业所用,让真实世界研究真正落地。