人工智能聊天机器人ChatGPT通过放射科医师专业考试能力有多强

最新版本的人工智能聊天机器人ChatGPT(Chat Generative Pre-trAIned Transformer),能够通过放射科医师的专业考试,这是加拿大多伦多大学的一项新研究发现的。这项研究于2023年5月16日发表在放射学会北美分会(RSNA)的期刊《放射学》上。研究者使用了150道选择题,模拟了加拿大皇家学院和美国放射科医师委员会的考试风格、内容和难度。由于ChatGPT目前还不能接受图像,所以研究者只使用了文本题。研究者将这些问题分别提供给了两个不同版本的ChatGPT:GPT-3.5和更新的GPT-4。

研究者将问题分为两类:低阶思维(知识回忆、基本理解)和高阶思维(应用、分析、综合)。高阶思维问题还进一步细分为类型(描述影像发现、临床管理、计算和分类、疾病关联)。相比于GPT-3.5,GPT-4在高阶思维问题上表现得更好。它在描述影像发现方面得分85%,在应用概念方面得分90%。“本研究的目的是看看ChatGPT在放射科背景下如何表现——无论是在高级推理还是基本知识方面。”Bhayana博士说。“GPT-4在这两个领域都表现得非常好,并展示了对放射科特定语言背景的更好理解——这对于实现放射科医生可以使用更先进工具来提高效率和效果至关重要。”她补充说。研究者对GPT-4相比于GPT-3.5在高级推理能力上的“显著提升”感到惊讶。“我们的发现突出了这些模型在放射科以及其他医学领域的日益增长的潜力。”Bhayana博士说。

包括Bhayana博士在内的许多健康技术专家认为,像ChatGPT这样的大型语言模型(LLM)将改变人们与技术交互的方式——特别是在医学领域。“它们已经被纳入到谷歌、必应等搜索引擎中,以及Epic、Nuance等电子病历和医学口述软件中。”她对福克斯新闻数字版说。“但是还有许多更先进的应用场景,将进一步改变医疗保健。”Bhayana博士相信,在未来,这些模型可以准确地回答患者提出的问题,帮助医生做出诊断并指导治疗决策。针对放射科,她预测LLM可以帮助增强放射科医生的能力,并使他们更有效率和有效果。“我们还没有完全达到那个水平——目前这些模型还不够可靠,不能用于临床实践——但我们正在快速朝着正确方向前进。”她补充说。

也许LLM在放射科领域最大的局限性是它们无法解释视觉数据,而这是放射科至关重要的一个方面。Castro博士说。像ChatGPT这样的LLM也以其“幻觉”的倾向而闻名,即它们以自信地方式提供不准确信息。Bhayana博士指出。“与GPT-3.5相比,在GPT-4中‘幻觉’减少了,但仍然发生得太频繁,不能依赖于临床实践。”她说。“医生和患者应该了解这些模型的优势和局限性,包括知道它们目前不能作为唯一信息来源。”Bhayana博士补充说。Castro博士认同,在标准化考试中取得更高分数,并不一定意味着对放射科等医学主题有更深刻地理解。“它只说明了GPT-4更擅长基于其训练过程中获取到大量信息进行模式识别。”他说。虽然GPT-4取得了令人鼓舞地成绩,但Castro博士表示,“要确保AI工具在真实临床环境中准确、安全和有价值,还有很多工作要做。”

您怎么看《人工智能聊天机器人ChatGPT考过放射科,能力有多强?》,欢迎在评论区分享您的看法!

如果感兴趣,欢迎点赞关注转发给朋友!