嘉兴市第二医院麻醉科 译审
介绍
大型语言模型(LLMs)是一种人工智能(AI),旨在模拟人类语言处理能力。它们使用深度学习技术,如神经网络,并根据各种来源的大量文本数据进行训练,包括书籍、文章、网站等。值得注意的是,广泛的培训使LLMs能够编写高度连贯和现实的文本。LLMs分析它们接受过训练的数据中的模式和联系,并使用这些知识来预测在特定上下文中接下来可能出现的单词或短语。这种理解和生成语言的能力在诸如机器翻译和文本生成之类的自然语言处理(NLP)的各个领域中是有益的。
生成式预训练转换器(Generative pre-training transformer,GPT)是OpenAI于2018年发布的一种LLM模型。使用转换器架构的变体对40 GB文本数据集进行训练,模型大小为1.5B参数。GPT-3于2020年发布,在海量文本数据集(570 GB,模型大小为175 B参数)上进行训练。ChatGPT是GPT-3的最后一个变体,开发用于与用户对话。
鉴于其潜力,该工具立即得到广泛测试。在目前作为预印本提供的手稿中,ChatGPT通过了美国医师执照考试(USMLE)的三门考试。另一项研究发现,GPT-3.5(Codex和InstructGPT)可以在人类水平上对各种数据集执行,包括USMLE(60.2%)、MedMCQA(57.5%)和PubMedQA(78.2%)。尽管ChatGPT经常产生令人印象深刻的输出,但目前还不清楚它在困难的现实世界问题和场景中的表现如何,特别是在需要高强度而复杂的脑力负荷的医学等领域。此外,虽然使用聊天机器人撰写科学文章是可能的,但重要的伦理问题出现了。
在这些前提下,我们进行了一项简短调查,以评估ChatGPT在四种临床和研究场景中的潜在用途:(1)支持临床实践,(2)科学写作,(3)在医学和研究中的误用,以及(4)关于公共卫生主题的推理。
支持临床实践的ChatGPT
我们开始要求ChatGPT为一名入住重症监护室(ICU)的患者撰写医疗记录,在此之前,我们以随机顺序提供了有关正在进行的治疗、实验室样本、血气分析参数以及呼吸和血液动力学参数的信息。在请求结构化注释后,ChatGPT能够正确地将大多数参数分类到适当的部分,即使它们仅以缩写形式显示,并且没有任何有关其含义的信息。
ChatGPT还表现出了一种令人印象深刻的能力,可以从自己的错误中学习,只需询问参数是否放置在正确的部分,而无需任何其它提示,就可以将正确的部分正确地分配给以前放错位置的参数。值得注意的是,主要局限性与解决急性呼吸窘迫综合征(ARDS)和脓毒性休克等疾病之间的因果关系有关。应当指出的是,虽然承认信息来源可能不够及时或全面,无法建立准确的因果关系。此外,ChatGPT不是为回答医学问题而设计的,因此,它缺乏充分理解不同条件和治疗之间复杂关系所需的医学专业知识和背景。此外,ChatGPT证明了基于所提供的信息为进一步治疗提供有意义的建议的能力,尽管有时所提供的信息是一般性的。ChatGPT的最佳表现与它总结信息的能力有关,尽管有时候不太精确,在医疗机构之间的沟通中使用技术语言,在与患者及其家属的沟通中使用通俗易懂的语言。
科学写作
为了探讨基于对话式人工智能的工具在医学研究中的潜在应用,我们评估了ChatGPT理解和总结信息以及根据摘要的背景、方法和结果部分的文本得出结论的能力。为了确保聊天机器人尚未了解所提供的信息(其当前知识库截至2021年),我们选择了2022年最后几个月在NEJM上发表的5篇论文。然后,我们编写了以下提示“根据以下提供的背景、方法和结果,编写NEJM摘要的结论。结论不能超过40字”。原始和GPT创建的结论见表1。总体而言,GPT能够正确指示设置并总结研究主要结局的结果。它更有可能突出次要发现,而文本长度的限制没有严格遵循,有利于有意义的消息。
GPT在医学和研究中可能的误用
我们检查了各种可能导致有意和无意误用的应用程序。我们还要求ChatGPT可能的误用情况。在表2中,我们报告了ChatGPT提供的一些建议。根据答复,我们评估了技术可行性。虽然所有建议的欺诈性使用ChatGPT的设置并不完全是ChatGPT,但令人印象深刻的是,它有效地加速了创建具有高度可信性的虚假证据和材料。 |