“AI如何彻底改变医疗机构为患者服务的3种方式像ChatGPT这样的LLM是否能帮助?”

AI如何改变医疗机构为患者服务的方式?LLM如ChatGPT是否有帮助?

医疗数字化的进展已经持续了很长时间,由于明显的原因,治疗实践一直与老旧的、经过仔细审查的做事方式相关联。

但是,越来越多的人工智能以各种形式进入诊所。应用包括预测分析、智能假肢、移动诊断和脑植入物。此外,随着ChatGPT等大型语言模型(LLMs)的出现,我们探讨了这种技术是否能在当今的医疗保健中起到辅助作用。

尽管大部分工作都是以试点研究的形式进行的,但很明显,人工智能将在未来几十年塑造医疗保健的交付方式中发挥重要作用。

特别报道

人工智能如何改变各个组织

世界上一些最有效的组织正在以聪明的、有时令人惊讶的新方式运用最新的人工智能创新。我们将聚焦于经济的不同部分的各种组织,看看它们如何自动化、简化和改变事物的方式。

AI研究和教育初创公司Fast.ai的联合创始人、第一家将深度学习应用于医学的公司Enlitic的创始人Jeremy Howard表示:“深度学习AI终于在技术基础设施就位、可用于训练的数据准备充分之后,经过多年的艰苦努力取得了进展。”他在接受ENBLE的采访中表示,经过所有的努力,“你应该预计在未来几年中会看到更多的应用AI在医学领域中的应用。”

目前,将AI应用于医学的最新技术水平包括采用各种非常成熟的机器学习形式的小规模研究。这些程序在几十年的时间里证明了它们的价值。它们最终被引入诊所,并应用于各种数据,从实时脑电图到电子健康记录。

对于像OpenAI的ChatGPT这样的新型机器学习AI来说,离在敏感领域的诊所中可靠使用还有很长的路要走。

机器学习的使用已经对参与的患者产生了转变性的影响。40岁的自行车事故受害者Gert-Jan Oskam通过一种新颖的脑-计算机界面恢复了站立和行走的能力。他告诉著名杂志Nature,这个装置改变了他的生活。

“上周,有一件需要涂漆的事情,没有人来帮助我,” Oskam说。“所以,我拿起行走器和油漆,自己站着做了起来。”

1. 通过人工智能恢复功能

在医疗保健领域,AI取得的最令人瞩目的早期成就之一是使用各种假肢恢复严重受伤者的功能。

埃隆·马斯克,请让位:斯坦福团队已经以一个惊人的例子成功实现了马斯克声称将进行临床试验的“脑-计算机界面”(BCI),并使用精心开发的机器学习形式的AI。

埃隆·马斯克所吹捧的“脑-计算机界面”已经成为现实。瑞士研究人员在大脑运动区域和脊髓的“腰骶”区域之间建立了一个“数字桥梁”,将意图转化为刺激肌肉以自然地使腿部活动。

斯坦福机械工程系的研究人员开发的“数字桥梁”利用传感器和无线技术将脑信号绕过脊髓受损部位。这个装置使Oskam能够重新行走,他在十年前的自行车事故中脊髓受伤后几乎无法行走。

此外:Google的MedPaLM强调医疗AI中的人类临床医生

研究人员Henri Lorach和团队在5月份的Nature杂志中描述了如何在Oskam身上植入了“脑-脊髓界面”。他在进行了五个月的脊髓硬膜外电刺激计划后,能够在行走器的帮助下进行一些步行。

洛拉奇和团队在大脑控制运动的两个半球顶部分别植入了两个装有64个电极的设备。这些传感器收集了被称为脑电层图(ECoG)的信号,这些信号与运动意图相关。通过一个3D打印的头戴式耳机,这些ECoG信号可以无线接收,耳机通过USB电缆连接到一个背包上佩戴的“基站”计算机。

背包上的计算机将ECoG模式解码为命令,然后通过无线方式发送到植入在“腰骶”脊柱区域顶部的第三个设备上–想象一下你的下背部和尾骨。这个叫做“脉冲发生器”的设备将这些命令转化为电刺激,以“使介导预期运动的肌肉参与其中”。

洛拉奇和团队报道说,结果是患者能够“恢复对腿部运动的直观控制,使其能够站立、行走、上下楼梯,甚至穿越复杂的地形”。附带报道的视频显示患者从坐姿起身行走,此时基站计算机放在行走器上,而不是背包里。

重要的是要意识到,这不仅仅是关于脑传感器植入的问题。洛拉奇和团队开创的用于解读运动意图的机器学习算法是一个关键因素。

这个程序使用一种称为“在线自适应监督学习算法”的方法,在患者反复尝试先是屏幕上的角色肢体动作,然后是外骨骼动作时进行调整。

该软件结合了几个机器学习科学的线索,包括“专家混合”(不同的命令控制不同的肢体)和所谓的“隐马尔可夫模型”(一种几十年来一直使用的算法)。运动意图的计算全部是实时进行的,患者在移动时进行计算。有关该算法的更多细节可以在2022年团队的之前的一篇论文中找到。

科学家们正在发现大脑信号采集和通过机器学习解码以恢复功能的许多其他方法。

另外:亚马逊AWS推出HealthScribe来转录医生的对话

上个月,加州大学旧金山分校神经外科学系的研究人员肖恩·梅茨格和团队在《自然》杂志上发表了一篇文章,介绍了一种演讲解码器,为一位47岁的中风患者生成了声音,该患者在近20年前失去了说话能力。

这种所谓的多模式演讲解码器还使用了植入式的ECoG探测器,从大脑的感觉运动皮层区域的信号中解码出“预期的句子”。该区域负责“唇部、舌头和下颌的运动尝试”。这些信号被解码为研究人员称之为“声道表示”,然后可以转化为多种输出:屏幕上的文本、生成的口述文字和模拟发声的角色的动作。

这种所谓的多模式演讲解码器还使用了植入式的ECoG探测器,从大脑的感觉运动皮层区域的信号中解码出“预期的句子”,使用了一种名为“双向递归神经网络”或“RNN”的经过长时间用于时间序列数据建模的程序。

关键在于不仅仅是传感器,还有机器学习算法。来自声道的ECoG信号被输入另一种经过验证的机器学习算法,称为“双向递归神经网络”或“RNN”,它是一种长时间用于建模时间序列数据的程序,这种数据测量相同变量在不同时间点的情况以发现趋势。在经过两周的训练后,RNN可以从患者试图说出的未提示句子中产生自发的文本输出。该程序可以每分钟生成多达78个单词。这比患者使用现有辅助设备(患者必须在屏幕上点头选择单词的头部跟踪设备,类似于已故的物理学家史蒂芬·霍金所用的设备)的14个单词每分钟速度快了多倍。

同样地,RNN能够被训练以解释ECoG来匹配波形,随后可以驱动声码器生成语音在与患者一起调试系统两周后,他们开发的“语音神经假肢系统”展示了如此令人印象深刻的结果,以至于“我们相信……这些结果已经超过了性能、普适性和表达能力的一个重要门槛,将很快对失语患者产生实际的益处,”Metzger和团队写道。

2. AI可以使医学诊断变得便携

医学诊断的主要障碍之一是需要患者前往医疗机构进行测试,使用巨大的设备并由训练有素的专家手动进行数据检查。但是一些新的诊断尝试正在使用机器学习形式的人工智能来将这一过程移到诊所之外。

以睡眠研究为例,通常需要在医疗机构停留七个小时,通过电极连接并在整夜由工作人员监测。是否可以使用手机和几个贴片在家中完成呢?

乔治亚理工学院的一个团队在亚特兰大设计了由硅胶制成的无线睡眠贴片,嵌入了柔性电路,如最近在著名的《Science》杂志上报道。这些贴片利用机器学习来测量睡眠数据,而不是让实时技术人员在整夜监测患者。

患者可以在家中将贴片贴在脸上,一个贴在额头上,一个贴在下巴上。它们收集用于检测睡眠呼吸暂停的脑电图(EEG)和眼动图(EOG)数据。这些贴片可以连续使用多天,而不像睡眠诊所使用的基于凝胶的电极。

贴片通过蓝牙将EEG和EOG数据传输到床头的移动设备上,移动设备使用所谓的“卷积神经网络”或“CNN”,这是机器学习的主力工具。使用CNN,将数据表示为活动频谱可以进行分析以检测睡眠呼吸暂停。

用于家庭睡眠研究的硅胶面贴片包含柔性电路,因此可以在睡眠期间佩戴。它们通过无线方式连接到移动设备进行数据收集和分析。

主要作者Shinjae Kwon和团队在与八名受试者的试验中发现,“系统的性能表现出88.52%的高准确性”来检测阻塞性睡眠呼吸暂停。此外,家庭贴片和CNN的检测结果与被称为“多导睡眠图”的金标准临床睡眠研究所产生的82.4%的检测结果显示“高一致性”。

此外:埃隆·马斯克表示Neuralink脑植入物即将进入人体试验阶段

Kwon和团队希望对该系统进行大规模研究,并将传感器的能力扩展到检测睡眠呼吸暂停的其他指标,包括血氧饱和度、二氧化碳和运动。

鉴于移动设备正在使用AI对CNN数据进行排序和筛选,Kwok和团队的努力指向了一个更大的趋势:在移动设备上使用AI在现场收集和分析数据。通过自动化通常由技术熟练的技术人员手动完成的测量,一些诊断可以延伸到诊所之外。

由Chayakrit Krittanawong领导的斯坦福大学团队在2021年进行的一项研究中列举了十几个消费级可穿戴心脏监测的例子,除了Apple Watch的心电图监测外,还包括以色列OrCam Technologies的眼镜和MEGAComfort的鞋垫。

这些可穿戴设备产生的“生物信号”被该团队定义为“可以连续测量和监测以提供有关电气、化学和机械活动的信息”的生理信号。机器学习是将所有这些数据聚合、分析和解释的良好选择。

Krittanawong和团队关联了一项由100名受试者进行的小规模研究,使用可穿戴贴片和放置在受试者胸部的一次性传感器。该传感器由一次性电池供电,可以检测来自受试者皮肤的多种数据,包括心电图波形、皮肤温度和受试者姿势。所有这些数据通过蓝牙无线传输到手机,然后上传到云端以进行机器学习分析。

这些贴片被用作可植入心脏监测设备的替代品,以预测心力衰竭住院风险。通过云端分析,贴片和移动设备的性能具有与传统医疗级可植入式监测器相匹配的敏感性和特异性。

3. 提高患者安全性的预测分析

迄今为止,在实际临床环境中广泛应用人工智能的用途之一是使用预测算法,这些程序可以预测患者再次入院的机会。它们通常使用电子健康记录(EHRs)的数据,因为这些记录是一个可用于存储大量数据的现成资源。

犹他大学医学院的一项研究发现,基于EHR数据的人工智能在当前临床运营中得到了广泛应用。这项研究由首席作者David Classen及其团队进行。

然而,这些预测工具的准确性存疑。密歇根大学医学院对Epic软件用于败血症的一项2021年研究发现,该工具对败血症的预测准确率非常低,对其在实践中的效用产生了质疑。

这表明研究人员需要更好的方法来推断EHR所传达的所有数据。

在预测分析的前沿领域的一个例子中,斯坦福大学医学院的科学家们收集了22,104对母亲和新生儿的EHR,并将这些记录进行关联,得出了他们所描述的更强大的预测早产儿死亡率的能力,这是5岁以下儿童死亡的主要原因。

由Davide de Francesco及其团队在今年2月发表于《科学转化医学》(Science Translational Medicine)杂志上的研究利用了母亲健康记录中包含的特征来预测新生儿的结果。其主要目标是获取比通常使用的少数特征更精确的婴儿死亡率情况,这些特征被称为出生/分娩时的“外观、脉搏、面部表情、活动和呼吸”或称为Apgar评分。

相反,研究人员将母亲在分娩前的多次就诊中的多个数据点输入到另一种经过时间测试的机器学习算法中,称为“长短期记忆”(LSTM),用于组合时间序列数据,类似于RNNs。LSTM被训练来将与母亲在分娩前进行的诊疗、用药和观察等相关的编码与婴儿新生儿病历中的病情,如低血压或败血症,相关联。

作者发现,相比传统的风险评估,LSTM程序能够更好地推断出婴儿报告的结果。

具体而言,LSTM程序可以从一些母亲状况中推断出较高的风险。他们提到,“与新生儿结果密切相关的这些编码包括[…]戒毒物质依赖、胎儿-母体出血、各种先天性心脏病。”

此外,他们还可以肯定一些在分娩后几周和几个月内保护早产儿的因素。

他们写道:“表明一周前的母亲免疫系统与胎儿的相对健康状况之间存在相互作用的值得注意的实验室测量包括血清白蛋白、血清蛋白、血小板、嗜碱性粒细胞、淋巴细胞和嗜酸性粒细胞。这些数据表明,母亲免疫系统在分娩前一周与胎儿及新生儿时期的相对健康状况之间存在相互影响。”

斯坦福的研究表明,随着更复杂的深度学习模型取代相对原始的预测系统,还有许多信息就在那里等待被解密。

在医疗保健中使用大型语言模型(LLMs)?

上述讨论的机器学习AI方法,如RNNs、CNNs、LSTMs和隐马尔可夫模型,都是相当成熟的AI方法,存在了几十年。新颖之处在于它们现在以更高级的复杂性和新数据进行部署。

那么,深度学习中的那些真正新的算法,如OpenAI的ChatGPT,如何应用在医学和医疗保健领域呢?

对于医学和医疗保健领域来说,生成式人工智能仍处于非常早期阶段。以大型语言模型的形式的人工智能正在逐步进入试点研究领域,这受到了对语言模型“幻觉”的担忧,即它们倾向于提供错误信息的倾向。

事实上,魏尔康奈尔医学院在今年8月的一项研究报告中指出,“大型语言模型可能容易生成事实不一致的摘要和过于令人信服或不确定的陈述,从而导致由于错误信息而可能造成的伤害。”

ChatGPT的创建者OpenAI实际上告诉《自然医学》杂志,”其模型不应用于医学诊断、分诊或处理危及生命的问题”。

生成型人工智能的风险和伦理问题意味着未来将面临许多监管障碍。

今年7月,匈牙利医学未来研究所的科学家贝尔塔兰·梅斯科(Bertalan Meskó)和斯克里普斯研究转化研究所的埃里克·托波尔(Eric Topol)在一篇综述文章中观察到:“语言模型(LLMs)为未来的医疗保健带来了巨大的希望,但它们的使用也带来了风险和伦理挑战。”

梅斯科和托波尔预测,监管机构将“为LLMs创建一个新的监管类别,因为它们与已经经过监管的基于人工智能的医疗技术有着明显的区别。”

“它确实看起来非常有用,”生成型人工智能的杰里米·霍华德(Jeremy Howard)说道,“但在符合美国医疗系统当前的限制和流程的严格部署上非常困难。”

霍华德预测,尽管存在缺点,生成型人工智能可能在填补医疗技能缺口方面具有价值。

“世界上大部分人口几乎没有足够数量的医生可供选择,”他说。“这可能归结为,您是想要经过六个月培训并能有效利用这个AI系统的社区卫生工作者,还是什么都没有?”