携手健康网携手健康网

用于分析癌症图像的AI模型采用引入偏差的捷径

人工智能工具和深度学习模型是癌症治疗的有力工具。它们可用于分析肿瘤活检样本的数字图像,帮助医生快速分类癌症类型、预测预后并指导患者的治疗过程。但是,除非这些算法经过适当校准,否则它们有时会做出不准确或有偏见的预测。

芝加哥大学研究人员领导的一项新研究表明,在大量癌症遗传和组织组织学数据上训练的深度学习模型可以轻松识别提交图像的机构。这些模型使用机器学习方法“教”自己如何识别某些癌症特征,最终使用提交站点作为预测患者结果的捷径,将他们与来自同一位置的其他患者混为一谈,而不是依赖于个体患者的生物学。这反过来可能导致来自种族或少数族裔群体的患者的偏见和错过治疗机会,这些患者可能更有可能在某些医疗中心有代表并且已经难以获得护理。

“我们在当前的深度学习模型开发方法中发现了一个明显的漏洞,这使得某些区域和患者群体更容易被包含在不准确的算法预测中,”医学博士,医学博士,助理教授UChicago Medicine 的医学和共同资深作者。该研究于 7 月 20 日发表在Nature Communications 上。

癌症患者治疗的第一步是取活检或肿瘤的小组织样本。将非常薄的肿瘤切片贴在载玻片上,用彩色染料染色,供病理学家检查以进行诊断。然后可以使用扫描显微镜创建数字图像以进行存储和远程分析。虽然这些步骤在病理学实验室中大多是标准的,但染色的颜色或数量、组织处理技术和成像设备的细微变化可以在每张图像上创建独特的签名,如标签。这些特定于位置的签名肉眼看不到,但可以通过强大的深度学习算法轻松检测到。

这些算法有可能成为一种有价值的工具,使医生能够快速分析肿瘤并指导治疗方案,但这种偏差的引入意味着模型并不总是基于它在肿瘤中看到的生物特征进行分析。图像,而是由提交站点之间的差异生成的图像工件。

Pearson 和他的同事研究了基于癌症基因组图谱数据训练的深度学习模型的性能,癌症基因组图谱是最大的癌症遗传和组织图像数据存储库之一。这些模型可以从组织组织学中预测存活率、基因表达模式、突变等,但这些患者特征的频率因提交图像的机构而异,并且该模型通常默认为“最简单”的区分方式样本之间 - 在这种情况下,提交站点。

例如,如果医院 A 为大多数富裕患者提供更多资源和更好的护理服务,那么从该医院提交的图像通常会显示更好的患者结果和存活率。如果医院 B 为难以获得优质护理的弱势群体提供服务,则该网站提交的图像通常会预测更糟的结果。

研究小组发现,一旦模型确定了哪个机构提交了图像,他们往往会用它来代替图像的其他特征,包括血统。换句话说,如果幻灯片的染色或成像技术看起来像是由医院 A 提交的,模型将预测更好的结果,而如果它看起来像医院 B 的图像,它们将预测更差的结果。相反,如果所有患者在医院 B 具有基于遗传学的生物学特征表明预后较差,该算法会将较差的结果与医院 B 的染色模式联系起来,而不是它在组织中看到的东西。

“算法旨在找到区分图像的信号,它通过识别站点来懒惰地这样做,”皮尔森说。“我们实际上想了解肿瘤内的哪些生物学更有可能导致对治疗或早期转移性疾病的抵抗力,因此我们必须从真正的生物学信号中分离出特定部位的数字组织学特征。”

避免这种偏差的关键是仔细考虑用于训练模型的数据。开发人员可以确保不同的疾病结果均匀分布在训练数据中使用的所有站点,或者在结果分布不均时通过在训练或测试模型时隔离某个站点。结果将产生更准确的工具,可以为医生提供快速诊断和规划癌症患者治疗所需的信息。

“人工智能的承诺是能够为更多人带来准确、快速、精准的健康,”皮尔森说。“然而,为了满足我们社会中被剥夺权利的成员的需求,我们必须能够开发出能够胜任并为每个人做出相关预测的算法。”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。