利用人工智能进行医疗大数据变革

“大数据”、“人工智能”和“物联网”是医疗行业使用越来越频繁的术语。“人工智能(AI)”一词诞生于1956年，但近年来，由于数据量的显著增加、先进算法使机器能够像人类一样“思考、工作和反应”，以及计算能力和存储能力的提高，“人工智能”一词的受欢迎程度急剧上升。

大数据的概念出现在20世纪90年代，它描述的数据集太大或太复杂，即使是在低延迟的情况下，传统数据库或数据处理应用软件也无法在合理的时间内捕获、管理和处理数据。促成大数据积累的是物联网(IoT)，这个术语自1999年首次被用作“物联网”(Internet for Things)以来一直在演变，当时射频识别(RFID)是物联网的概念核心。

如今，物联网涵盖了与互联网相连的一切，包括传感器、智能手机、医疗设备、可穿戴设备等，所有这些都是实时采集和上传的，健康相关大数据也在快速积累。近日，创新咨询与基金管理服务公司Healthbox发布了《利用大数据》(Harnessing Big Data)报告，报告旨在研究医疗行业与大数据的关系。主要内容有：

背景：大数据是什么?

前景：如何利用大数据?

分析：利用大数据需要注意什么?

应用程序：大数据的现实应用

以下是动脉网为您编译的该报告的主体内容：

背景：大数据是什么?

大数据简史

随着时间的推移，“大数据”、“物联网”和“人工智能”这三个词被分别创造出来。今天，它们在快速发展的技术世界中形成了独特的聚合，影响着我们收集、感知和分析健康相关数据的方式。

1956年：“人工智能”(AI)一词由计算机科学家John McCarthy首创，他曾就此问题举行过学术会议。

1990-1999年：大数据作为一个术语出现，用来描述对于传统数据库来说太大或太复杂而无法处理的数据集。

1999 - 2008年：物联网的概念在这一时期发展起来，最初是指通过射频识别技术获取数据。

今天，人类在人工智能方面的能力正在迅速扩张，人工智能是收集和分析每秒通过物联网创建的大量数据的关键组成部分，包括所有连接到互联网的数据。

医疗领域的大数据机遇看似无穷无尽，但也存在许多值得思考的问题：

我们收集哪些类型的数据?

这个数据的来源是什么?

我们已经拥有的数据中存在哪些空白，我们如何填补这些空白?

目前这些数据如何被使用，潜在的其他应用程序是什么?

我们如何保护这些数据以防止网络入侵、数据安全损失和其他形式的网络安全风险?

大数据的四个“V”

医疗大数据的四个“v”包括容量(volume)、速度(velocity)、多样性(variety)和有效性(validity)。由于电子病历(EMR)的广泛采用、精准医学决定因素的加速发现，以及可穿戴生物传感器的迅速发展，个人数据来源的增长，导致了健康数据的绝对数量激增。

收集和利用大数据

传感器、智能手机、医疗设备、可穿戴设备等实时采集和上传信息的进化，导致了大数据的积累。正在收集的数据具有数量大、速度快和多样性的特点，为利用和确保其有效性，使其造福于人类，大数据向基于证据的精准医学提出了挑战。

除了传统的生物健康测量方法，还有大量的社会人口学、地理位置学和非医学元数据，这些元数据都有意义地相互作用，以确定个人或多人的健康状况。

在传统数据系统之间创建互操作性的挑战多种多样。

如今，我们需要跨不同的筒仓数据源集成更广泛的数据。如果要让大数据有意义地塑造护理决策，关键是要确定所有这些不同测量方法的有效性和准确性、它们的派生推论以及我们从这些数据中推断出的可操作结论。

前景：如何利用大数据?

在向基于价值的医疗服务转型过程中利用大数据

尽管这可能看起来令人生畏，但这四个“v”实际上很好地契合了医疗服务转型的需求，即从按服务收费的行业向以信息为基础，以及价值驱动的医疗服务提供模式转变。获取用于描述人群特征的全面数据，以及用于根据个人需求定制决策的精确数据，将至关重要地为医疗策略提供信息并确定优先级，指导针对特定个人的精确医疗决策。

对预防干预的日益重视，对不断演变的患者病情的治疗的不断个性化，以及在整个患者过程中护理的协调，使得获取、解释和持续分析患者病情变得十分必要。它还需要对大量数据进行及时的处理。

健康的社会决定因素是健康结果的重要潜在驱动力，因此需要综合各种各样的数据输入以做出可采取行动的决定，这种数据输入正在迅速扩大。但是，如何从这些数据中形成可执行的决策?

从海量数据中提取信号

人类无法衡量现有的海量数据，也无法独自得出有意义的结论。谷歌脑人工智能研究小组(Google Brain AI Research Group)产品经理、医学博士Lily Peng指出，虽然人类智能最适合整合少量非常“大影响”的因素，但人工智能尤其擅长梳理和识别大量非常“小影响”或模糊因素的模式。这是机器学习和人工智能作为人类智能不可或缺的合作伙伴可以发挥的补充作用，它们可以帮助医疗保健提供者应对来自各个方向的海量、快速和多样的数据。

从这些海量的数据中得出有效的结论，需要重新设计现有的决策过程，将机器学习与人类直觉和领域专业知识结合起来，做出有效的临床决策，提高护理价值。如果适当考虑到将其纳入护理提供和决策的不断发展的模式中，大数据和人工智能可以成为有益变革的有效推动者和催化剂，而不仅仅是给执业临床医生工作流程增加不必要的复杂性。

病人的私人临床医生作为真理的单一来源的日子一去不复返了。无论是谈论心脏病发作、中风、创伤、癌症，还是复杂的急性后护理，决策都是在一组人的共同考虑下做出的，更不用说患者自己的选择和对其病情的研究了。

当我们从应用广泛的人群规范和通用的护理标准，转向根据特定个体的定制需求定制护理时，将需要人工智能分析支持的广泛经验数据来定义与给定患者相关的个体规范。虽然在确定的人群中，进行随机对照临床试验的目的是控制混杂因素，并在实验环境中隔离测试干预的影响，但实际的测试对象很少能准确地反映现实世界中遇到的个体的广泛和多样性。

从实用主义的角度来看，我们不可能根据现实世界中所有细微差别和个性化的遭遇，来设计直接提供护理的试验。因此，人工智能对大数据的解析和分析将在指导个性化现实决策方面发挥重要作用。

利用大数据进行临床决策

如果大数据和人工智能要有效地支持临床决策，就需要克服四个潜在的挑战：

1. 消除数据收集中的偏差;

2. 承认匿名性和特殊性之间的内在冲突;

3.对收集到的数据进行有意义的验证;

4. 理解潜在的因果关系。

分析：利用大数据需要注意什么?

1、克服数据收集中的偏见

医疗数据杂乱无章。在最基本的层面上，尽管我们努力规范医学术语、诊断编码等，但在个体提供者如何描述、概念化和阐明他们对患者的观察方面存在很大差异。通常，对所有数据进行的探索、发现和分析，其有效性和价值仅与底层数据集的清晰性和有效性相同。这些问题只与收集的数据的数量和速度有关，必须对这些数据进行解释。

标准化、语义分类和公认的概念本体是“数据清理”中的一些必要步骤，在大数据集准备好接受人工智能技术的有用分析之前，这些步骤是为大数据集制定标准所必需的。

除了这些考虑之外，每个研究者对大数据的不同也产生了固有的偏见。偏差可以包括评估的数据类别以及如何收集这些数据(例如，对哪些人群进行了抽样，以及使用了哪些抽样工具，可以有选择地包括或排除数据集中的显示)。

假设高维数据的威力存在于数据中未公开的混杂因素下。不幸的是，这一假设远未成为人们放弃的结论，并对人工智能技术从大数据中得出的结论的有效性构成了威胁。例如，如果人们不考虑度量一个变量，而该变量是期望结果的重要驱动因素，那么将明显的结论应用于与混淆者的协变量关系发生变化的情况，则可能是不正确和具有误导性的。

这触及了人类领域经验与人工智能交叉的根源，以及人类大脑处理的“大影响”，而机器正在检测的小影响因素可能会忽略这些“大影响”。

2、匿名性与特异性不一致

从理论上讲，利用大数据力量的过程中，应该允许通过匿名化个人数据点来源，来保护个人身份和健康信息的安全。现实世界中的大数据的价值在于，它可以被分析，从而为指导个体患者的个性化精准医疗决策提供洞见。大数据的广度包含了元数据元素，这些元数据元素有潜力实现个人身份的去匿名化。

最终，在开放共享大数据所产生的价值与重新识别数据源的有限风险(可能侵犯患者隐私)之间，存在一种平衡。人们必须采取适当的预防措施进行结构分析，以避免对患者身份进行反向工程(Reverse Engineering或Back Engineering)。

然而，值得注意的是，共享开放数据的好处超过了对个人不利因素的重新识别。社会将不得不在共享和开放获取数据的好处，以及通过对分割的数据进行反向工程来重新识别个人的有限但真实的可能性之间，进行道德权衡。解决这些问题需要的是人类的智慧，而不是人工智能。

3、创建可证明性

我们有理由假设，对患者及其病情进行更有力的高维描述，将有助于更好地理解驱动特定疾病过程的环境。然而，以这些数据和分析为指导的有效干预措施能否降低成本、提高满意度并改善消费者体验，还有待证明。

因此，我们必须将数据、人工智能获取的知识和知情的临床决策集成到临床流程和工作流中，并将其紧密地交织在一起，以推动患者护理的潜在效益。我们还需要进行适当的结构化临床试验，以证明数据驱动的护理过程带来的增量效益足以证明这些决策所产生的任何成本都是合理的。

4、相关性并不意味着因果关系

定义因果关系对于开始将数据中观察到的模式转换为知情干预至关重要，在知情干预中，假定的因果变量可以被改变，以实现拟议的结果。在这个过程中，最重要的是确保被分析的数据不会遗漏可能与测量结果有因果关系的混杂因素。领域专家和人类直觉总是需要与人工智能协同工作，以确认没有隐藏的混杂因素。

另一方面，高维数据提供了识别盲点的机会，而这些盲点是人类大脑没有考虑到的，它们可能与人类领域专业知识中固有的偏见，以及启发式假设导致的结果有因果关系。机器的使用可以帮助人类揭示这些未发现或未预料到的变量。

在智能软件能够处理大数据集并被编程成像人类一样思考之前，构造良好的随机对照试验，在过去和现在都被当做用来避免隐藏混杂因素的重要方法。然而，现实世界中的大数据并不总是被划分为干预组和对照组，而且往往存在巨大的差距。随机对照试验或队列研究并不总能解决谜题中缺失的那一块。

人工智能和机器学习现在可以提供统计工具来确定测量值，以填补数据空白，并综合构建“控件”，以便与真实世界的经验进行比较。这些工具提供了一条前进的道路，以便在没有干预的情况下，将来自给定干预的观察结果与预期结果进行比较，这样我们就可以模拟允许关于确定性和因果关系的假设的测试范式。

应用程序：大数据的现实应用

人工智能在研究中的潜在应用

GNS Healthcare的董事长、首席执行官兼联合创始人Colin Hill设想了一个因果机器学习过程，该过程首先通过检查高维数据中的关系，推断出潜在的因果机制。使用这些信息，“反向工程”就可以在模拟场景环境中测试可能的因果关系。这被称为“正向模拟”，它能使研究人员检验因果假设的有效性，而这些假设在现实世界中是不容易检验的。

在药物发现方面， Relay Therapeutics的首席科学官兼联合创始人Mark Murcko博士提出了一种理论，即如何利用药物到靶点相互作用的正向模拟来进行潜在药物的内硅筛选，以获得针对生物验证靶点的有效性。该模拟基于数据驱动的对药物使用时蛋白质运动和功能变化的理解。

这些理解因果关系的方法结合了人类领域的专业知识和应用于大量数据集的人工智能，以预测筛选的化合物与疾病过程的生物靶点之间的治疗相互作用。

大数据的现实应用

虽然将大数据应用于研究的理论机会很多，但人工智能和机器学习已经在医疗服务领域掀起了波澜。以下重点介绍利用大数据进行患者分流、诊断成像和预测实践变化、不良结果和治疗影响的驱动因素的公司。

例如，Twiage正在处理急诊医学，帮助医院跟踪指标、分配资源和改善反应时间，以显著影响中风、心脏病发作、败血症和创伤患者的预后。Buoy Health利用大数据和人工智能直接针对患者进行疾病分类，并将他们引导到合适的护理环境。患者可以使用在线应用程序与机器人聊天，描述他们的症状，并通过一系列类似于他们在物理护理环境中体验的问题进行指导。

随着医学成像技术的进步和需求的增加，Zebra medical Vision旨在帮助放射科医生更快地识别成像结果中的异常情况。该公司的人工智能算法可以识别医疗状况，充当第一组“眼睛”，提高放射科医生的工作速度。

GNS Healthcare将上述反向工程和正向模拟理论付诸实践，利用大数据和人工智能在临床试验中运行，了解药物在现实世界中如何发挥作用，并帮助确定针对个体患者的最佳干预方式和干预时机。

Agathos为卫生系统提供了一个分析平台，可以收集见解并向提供者提供反馈，使他们能够看到患者数据中的个性化和聚合趋势，帮助告知人员配置、舍入前处理和指导需求，以及其他改进临床工作流程和患者结果的需求。

PhysIQ和Pascal Metrics是针对患者的实时监控解决方案，它们使用机器学习来检测患者病情的细微变化，无论是急性发作后还是住院期间，并提醒其护理团队采取必要行动。

结论

那么，我们如何利用大数据与人工智能的关系来推动医疗创新呢?

大数据新应用的增长速度和数据本身一样快。随着我们不断开发将大数据融入人工智能的新方法，人们意识到以下需求至关重要：

1、“清除”所有收集到的可能存在偏见的数据;

2、标准化收集或统一数据的方法;

3、同意正确使用匿名信息;

4、避免落入相关性与因果关系的陷阱。

为了充分利用人工智能的力量，我们必须接受与计算机协同工作。通过这种方式，我们既能从计算机的处理能力中获益，也能从人类智能中获益，从而充分利用大数据进行变革。