综合
遗传学中的生成人工智能:有效但需要监控一致性

Samuel (Sandy) Aronson, ALM, MA,麻省总医院布莱根个性化医学IT和人工智能解决方案执行董事,临床转化加速器IT和人工智能解决方案高级董事,是NEJM AI发表的一篇论文的通讯作者,该论文研究了生成式人工智能是否有希望改善临床基因检测中变异的科学文献综述。他们的发现可能会在这个用例之外产生广泛的影响。

你会如何向外行人总结你的研究?

我们测试了是否可以使用生成人工智能来识别科学文章中是否包含可以帮助遗传学家确定遗传变异是否对患者有害的信息。在测试这项工作时,我们发现了生成式人工智能的不一致性,如果不充分解决,可能会给患者带来风险。我们建议可以提高安全性的测试和监控形式。

你在调查什么问题?

我们调查了生成人工智能是否可以用于确定:1)科学文章是否包含有关变异的证据,可以帮助遗传学家评估遗传变异;2)关于变异的任何证据是否支持良性、致病性、中间或不确定的结论。

你使用了什么方法或途径?

我们使用72篇文章的标记数据集测试了基于GPT-4的生成式人工智能策略,并将生成式人工智能与专家遗传学家的评估进行了比较。

你发现了什么?

生成式人工智能的表现相对较好,但在大多数用例中需要更多的改进。然而,当我们重复运行测试时,我们观察到一个我们认为重要的现象:重复运行相同的测试数据集会产生不同的结果。通过在一段时间内重复运行测试集,我们描述了可变性。我们发现漂移(模型性能随时间的变化)和不确定性(连续运行之间的不一致)都存在。我们开发了可视化来展示这些问题的本质。

这意味着什么?

如果临床工具开发人员没有意识到大型语言模型可能表现出显著的漂移和不确定性,他们可能只运行一次测试集,并使用结果来确定他们的工具是否可以被引入实践。这可能不安全。

下一步是什么?

我们的结果表明,多次运行测试集以演示存在的可变性(不确定性)程度可能很重要。我们的结果还表明,监控性能随时间的变化(漂移)是很重要的。

点击分享到

热门推荐