音频组学领域将人工智能工具与咳嗽等人类声音相结合,以评估健康状况。
由谷歌科学家领导的团队开发了一种机器学习工具,可以通过评估咳嗽和呼吸等噪音来帮助检测和监测健康状况。人工智能 (AI) 系统 1 经过数百万个人类声音音频片段的训练,有一天可能会被医生用来诊断包括 COVID-19 和结核病在内的疾病,并评估一个人的肺部状况发挥作用。
这并不是研究小组第一次探索使用声音作为疾病的生物标志物。这一概念在 COVID-19 大流行期间受到关注,当时科学家发现可以通过人的咳嗽来检测呼吸道疾病 2 。
谷歌系统的新颖之处在于它所训练的海量数据集,以及它可以进行微调以执行多项任务的事实,称为健康声学表示(HeAR)。
研究人员于本月早些时候在尚未经过同行评审的预印本 1 中报告了该工具,他们表示现在判断 HeAR 是否会成为商业产品还为时过早。目前,计划是让感兴趣的研究人员访问该模型,以便他们可以在自己的研究中使用它。 “作为谷歌研究的一部分,我们的目标是刺激这个新兴领域的创新,”参与该项目的纽约谷歌产品经理 Sujay Kakarmath 说。
如何训练你的模型
该领域开发的大多数人工智能工具都是根据录音(例如咳嗽声)进行训练的,这些录音与发出声音的人的健康信息相匹配。例如,剪辑可能会被标记为表明该人在录制时患有支气管炎。该工具在称为监督学习的训练过程中将声音特征与数据标签关联起来。
“在医学领域,传统上,我们一直在使用大量监督学习,这很棒,因为你有临床验证,”坦帕南佛罗里达大学的喉科医生 Yael Bensoussan 说。 “缺点是它确实限制了您可以使用的数据集,因为缺乏带注释的数据集。”
相反,谷歌研究人员使用了自我监督学习,它依赖于未标记的数据。通过自动化流程,他们从公开的 YouTube 视频中提取了超过 3 亿个咳嗽、呼吸、清喉咙和其他人类声音的短声音片段。
每个剪辑都被转换为声音的视觉表示,称为频谱图。然后,研究人员屏蔽了频谱图的各个部分,以帮助模型学习预测缺失的部分。这类似于聊天机器人 ChatGPT 背后的大型语言模型在接受无数人类文本示例的训练后如何预测句子中的下一个单词。使用这种方法,研究人员创建了他们所谓的基础模型,他们说该模型可以适用于许多任务。
高效的学习者
就 HeAR 而言,谷歌团队对其进行了改造,以检测 COVID-19、结核病以及一个人是否吸烟等特征。由于该模型接受了如此广泛的人类声音的训练,为了对其进行微调,研究人员只需向其提供非常有限的标有这些疾病和特征的数据集。
在 0.5 代表模型的性能不比随机预测好、1 代表每次都能做出准确预测的模型的尺度上,HeAR 在 COVID-19 检测方面的得分为 0.645 和 0.710,具体取决于测试的数据集 —比在语音数据或一般音频上训练的现有模型具有更好的性能。对于结核病,得分为0.739。
卡卡马斯说,原始训练数据如此多样化——音质和人力资源各不相同——这一事实也意味着结果是可以推广的。
俄克拉荷马大学塔尔萨分校的工程师阿里·伊姆兰 (Ali Imran) 表示,谷歌使用的海量数据对这项研究具有重要意义。 “这让我们相信这是一个可靠的工具,”他说。
Imran 领导了一款名为 AI4COVID-19 的应用程序的开发,该应用程序在区分 COVID-19 咳嗽和其他类型的咳嗽方面表现出了良好的前景 3 。他的团队计划向美国食品和药物管理局(FDA)申请批准,以便该应用程序最终能够推向市场;他目前正在寻求资金来进行必要的临床试验。到目前为止,还没有 FDA 批准的工具可以通过声音进行诊断。
Bensoussan 表示,健康声学或“音频组学”领域前景广阔。 “声学科学已经存在了几十年。不同的是,现在,借助人工智能和机器学习,我们有能力同时收集和分析大量数据。”她是一个研究联盟的共同领导者,专注于探索声音作为跟踪健康的生物标志物。
她说,“不仅在诊断方面具有巨大的潜力,而且在筛查方面也具有巨大的潜力”和监测。 “我们不能每周重复扫描或活检。这就是为什么声音成为疾病监测的一个非常重要的生物标志物,”她补充道。 “它不是侵入性的,而且资源很少。”
doi:https://doi.org/10.1038/d41586-024-00869-0
参考
鲍尔,S.等人。预印本位于 arXiv https://doi.org/10.48550/arXiv.2403.02522 (2024)。
Santosh, K. C.、Rasmussen, N.、Mamun, M. 和 Aryal, S. PeerJ。计算。科学。 8、e958(2022)。
伊姆兰,A. 等人。信息和。解锁 20, 100378 (2020)。