上海市眼科临床质量控制中心

ChatGPT 在眼科领域:新时代的黎明?

发表时间:2023-07-18 16:11
来源:Nature
“那些能想象一切的人,就能创造不可能的事情。”
——艾伦·图灵
想象一下生活在这样一个世界:患者可以根据自我报告的症状和/或图像自我诊断自己的健康状况;或者医生可以在没有大量先前特定领域知识的情况下治疗任何医学疾病;或者诸如起草出院信之类的日常医疗管理工作可以自动化。
所有上述场景曾经被认为是理想主义的愿望,现在正逐渐转变为人工智能 (AI) 可以实现的现实,特别是随着最近 ChatGPT 的出现。鉴于重大炒作和争议,本社论旨在揭开 ChatGPT 关键概念的神秘面纱,并主要从眼科角度评估其在医学中的作用。
什么是 ChatGPT?
ChatGPT(OpenAI)是一个基于大语言模型 (LLM) 的生成式 AI 聊天机器人 [1]。它能够处理文本输入和图形输入并将其转换为基于文本的输出,参与类人对话并创建新的类人内容(“生成”)。该模型基于生成预训练 Transformer (GPT) 架构,并使用源自书籍、文章和各种基于互联网的内容的大规模文本语料库(包含数十亿个单词)以无监督方式进行预训练,然后进行最低限度的监督针对各种下游任务对模型进行微调(称为“小样本学习”)。Transformer 架构能够对整个输入和上下文进行整体处理,并根据单词的统计预测(以之前的单词和整个上下文为指导)将其“转换”为有意义的类人文本。OpenAI 还创建了 GPT-3 变体 DALL-E,它可以将文本输入转换为图形输出。鉴于其惊人的多功能性和功能性,ChatGPT已经渗透到各个领域,包括商业、娱乐、教育、科学、法律和医疗保健领域。
ChatGPT 经历了多次迭代,从 2018 年的 GPT-1、2019 年的 GPT-2(15 亿个训练参数)和 2020 年的 GPT-3(1750 亿个训练参数),到最近的 2022 年 11 月的 ChatGPT-3.5 和 ChatGPT 2023 年 3 月为-4(尽管最新的架构、训练数据和参数仍未公开)。ChatGPT 已迅速积累了超过 10 亿用户,2023 年 5 月 14 日的 PubMed 搜索返回了超过 400 个与 ChatGPT 相关的结果,凸显了医疗领域对这项技术的巨大兴趣。
潜力
ChatGPT 具有以多种方式彻底改变医疗领域(包括眼科)的潜力,涵盖患者、医疗保健专业人员/系统、研究和教育/培训(图 1 )。
图 1:ChatGPT 在眼科领域的潜力

图片

ChatGPT 在眼科领域的潜力,涵盖患者、医疗保健专业人员/组织、研究、教育和培训。
患者
将 ChatGPT 用于医疗目的的合理性很大程度上源于其在医学考试中卓越的问答性能,可以取得与前 10% 的考生相当的分数 [ 1 , 5 , 6 ]。然而,重要的是不要过度推断这些发现,因为体检中的问答并不能直接转化为现实世界的临床实践,在现实世界的临床实践中,人际交往能力、临床推理/情境化和整体患者护理至关重要。几项研究专门评估了 ChatGPT 在回答眼科问题方面的表现,并证明了相当不错的准确性 (40–80%) [ 7,8,9]。这受到问题难度和领域的影响(例如,普通医学领域的准确性高于专业领域)。有趣的是,该模型易于接受训练和细化[ 8 ]。
因此,未经医学培训的个人/患者可能会利用 ChatGPT 作为虚拟助手来自我分类和自我诊断他/她的眼科疾病,范围从无害到可能威胁视力的眼部疾病(参见图 2A 中的示例 , B)。此外,ChatGPT 可以有效地生成患者教育材料,将行话重的医学术语翻译成适合外行水平的简化和/或善解人意的语言(图 2C)[3, 10 ] ,或者充当“治疗师”为患有心理健康疾病的人提供咨询[ 11]。这将是非常宝贵的,因为患有慢性眼病或视力障碍的患者更容易遭受心理困扰/疾病[ 12,13,14 ]。ChatGPT 的多语言翻译功能可以进一步满足多种族患者群体的需求,并有可能与文本到语音音频生成(对视障患者特别有用)和文本到图像或视频生成平台集成,以增强患者体验。
图 2:与眼科领域相关的 ChatGPT 现实生活对话的几个示例(生成的响应的某些部分被缩短)

图片

A、B分别针对潜在结膜下出血和锐角闭合性青光眼的个人“咨询”ChatGPT 的示例。C个人“咨询”ChatGPT 以了解白内障手术的示例。D个人/眼科医生“咨询”ChatGPT 来治疗视神经炎的示例。请注意,对于 ChatGPT 提供的任何医疗建议,其结尾总是声明“咨询医疗保健专业人员至关重要”。E个人/眼科医生使用 ChatGPT 进行医学教育和培训的示例。
医疗保健专业人员/系统
ChatGPT 可以为医生提供来自不同来源的精选综合信息和指南,促进制定鉴别诊断、决策和治疗计划的过程(图 2D) [ 15 ]。使用 ChatGPT 可能会自动化和加快管理任务,包括起草出院摘要和医疗报告,以及回答行政查询,例如预约重新安排和药物补充请求 [16 , 17 ]。ChatGPT 可以通过提示承认并纠正错误,强调人类监督的重要性,以最大限度地发挥 ChatGPT 作为辅助工具的优势[18]。它能够处理存储在电子健康记录 (EHR) 中的大量结构化和非结构化临床信息,这些信息越来越多地应用于眼科 [ 19 , 20 ],并生成简明的信息患者记录摘要[ 21 ]。这使得医生能够将咨询重点放在临床管理和患者沟通上。
研究
同样,ChatGPT 在摘要任务中的表现可以加速耗时的研究过程。ChatGPT 可以有效地进行文献综述、总结研究结果和起草摘要/手稿,工作质量与临床医生/科学家没有区别 [ 22 , 23 ]。关于 ChatGPT 是否应该被承认为研究文章的作者存在伦理争议。根据 ICJME 标准,包括 Springer Nature 在内的许多出版商表示,任何法学硕士(包括 ChatGPT)不应被列为作者,因为他们缺乏批准最终手稿或对研究负责的能力[ 24,25]。尽管如此,ChatGPT 的协助应在适当的情况下在出版物中予以承认。此外,ChatGPT 还可以通过产生新的科学想法、清理大型数据集、调试代码、协助患者招募和推进基础科学发现,促进模型开发流程中的原创研究 [18 , 26 ]。
教育/培训
ChatGPT 在医学检查问答任务中令人鼓舞的表现以及与人类“互动”的能力显示出在加强医学教育和培训方面的潜力[ 4 ]。除了生成答案之外,ChatGPT 还可以通过高度一致性和洞察力的补充逻辑解释来进一步证明响应的合理性[ 27,28,29 ]。ChatGPT的多语言功能可以用来改善有语言障碍的学生的学习体验,以ChatGPT的回答作为基准和工具来提高他们的语言能力和写作风格[4 ]。它还可以产生想法、策略和考试问题或测验来刺激学习(图 2E)。
潜在的陷阱
作为一种生成式人工智能,ChatGPT 基于文本的统计预测生成输出,无需类人推理。这可能会导致听起来合理但不准确的反应,称为“幻觉”或“捏造”[ 30 ]。缺乏新近度是另一个限制,因为该模型是使用截至 2021 年 9 月的数据进行训练的。ChatGPT 会错过医学和眼科(正在迅速发展)的最新进展。该模型是使用各种资源进行训练的,包括未经验证的基于互联网的内容,如果未经严格验证而过早部署到临床实践,可能会加剧不准确性并导致患者伤害。
当前的 ChatGPT 模型缺乏透明度和可解释性,因为响应没有得到参考文献的证实(这使得事实检查变得不可能)并且训练数据集/系统的详细信息未公开。偏差可能会通过有偏差的训练数据无意中引入,这可能会导致有偏差的响应。其他道德问题包括数据隐私和安全,其中个人敏感数据可能会无意中被泄露,需要更严格的监管和网络安全。患者或医生可能会上传眼睛/面部照片以用于 ChatGPT 的“医疗援助”,这可能会带来破坏生物识别安全和/或身份盗窃的风险[ 31]。此外,ChatGPT 不能承担责任,也不能遵守任何伦理/道德界限。因此,医生和/或患者应该仅将 ChatGPT 视为辅助工具(充其量)。ChatGPT在研究中的潜在广泛作用也引发了有关研究工作原创性(和抄袭)、署名和知识产权(如果使用此类技术)的问题 [18 ]。
ChatGPT 代表了人工智能和法学硕士领域的重大突破。然而,其是否准备好作为医疗领域的自动决策工具仍有待阐明[ 5,6,27 ]。随着模型的进一步完善,ChatGPT 可能会达到足够的成熟度、稳健性和透明度,以被相关最终用户所接受,包括患者、医疗保健专业人员、医疗保健系统、研究人员、教育家、监管机构和政府利益相关者。当时机成熟时,这很可能预示着医学新时代的到来。
参考
1. 开放人工智能。GPT-4 技术报告。arXiv. 2023:2303.08774。
2. Stokel-Walker C、Van Noorden R。ChatGPT 和生成式 AI 对科学意味着什么。自然。2023;614:214–6。
3. ChatGPT 会改变医疗保健吗?纳特医学。2023;29:505–6。
4. Seetharaman R. 彻底改变医学教育:ChatGPT 能否促进主观学习和表达?医学系统杂志。2023;47:61。
5. Gilson A、Safranek CW、Huang T、Socrates V、Chi L、Taylor RA 等。ChatGPT 在美国行医执照考试中表现如何?大型语言模型对医学教育和知识评估的影响。JMIR 医学教育。2023;9:e45312。
6. Thirunavukarasu AJ、Hassan R、Mahmood S、Sanghera R、Barzangi K、El Mukashfi M 等。通过应用知识测试在一般实践中试用大型语言模型(ChatGPT):观察性研究证明了初级保健的机会和局限性。JMIR 医学教育。2023;9:e46599。
7. 米哈拉切 A、波波维奇 MM、穆尼 RH。人工智能聊天机器人在眼科知识评估中的表现。JAMA 眼科。2023;e231144。
8. Antaki F、Touma S、Milad D、El-Khoury J、Duval R。评估 ChatGPT 在眼科中的表现:对其成功和缺点的分析。眼科科学。2023;https://doi.org/10.1016/j.xops.2023.100324。
9. Raimondi R、Tzoumas N、Salisbury T、Di Simplicio S、Romano MR。皇家眼科医师学院奖学金考试中大型语言模型的比较分析。眼睛(伦敦)。2023;https://doi.org/10.1038/s41433-023-02563-3。
10. Sharma A、Lin IW、Miner AS、Atkins DC、Althoff T。人类与人工智能的协作可以在基于文本的点对点心理健康支持中实现更多同理心对话。纳特·马赫·英特尔. 2023;5:46–57。
11. Graber-Stiehl I. 世界准备好迎接 ChatGPT 治疗师了吗?自然。2023;617:22–4。
12. 德明 DL,西尔弗斯坦 SM。视力障碍和心理健康:未满足的需求和治疗选择。临床眼科。2020;14:4229–51。
13. Ting DSJ、Krause S、Said DG、Dua HS。COVID-19 大流行封锁对英国眼病患者的心理社会影响。眼睛(伦敦)。2021;35:2064–6。
14. Zhou Y、Murrough J、Yu Y、Roy N、Sayegh R、Asbell P 等。DREAM 研究中抑郁症与干眼症状、体征和炎症标志物严重程度之间的关联。JAMA 眼科。2022;140:392–9。
15. Hirosawa T、Harada Y、Yokose M、Sakamoto T、Kawamura R、Shimizu T。生成性预训练 Transformer 3 聊天机器人针对常见主诉的临床小插图生成的鉴别诊断列表的诊断准确性:一项试点研究。国际环境研究公共卫生杂志。2023;20:3378。
16. Patel SB、Lam K. ChatGPT:出院摘要的未来?柳叶刀数字健康。2023;5:e107–e8。
17. 辛格 S、贾利利安 A、阿里 MJ。ChatGPT 和眼科:通过出院总结和手术记录探索其潜力。塞明眼科。2023 年:1–5。
18. van Dis EAM、Bollen J、Zuidema W、van Rooij R、Bockting CL。ChatGPT:研究的五个优先事项。自然。2023;614:224–6。
19. Ting DSJ,Deshmukh R,Ting DSW,Ang M。角膜疾病和白内障中的大数据:当前应用和未来方向。前沿大数据。2023;6:1017420。
20. Lim MC、Boland MV、McCannel CA、Saini A、Chiang MF、Epley KD 等。美国眼科医生对电子健康记录的采用以及对财务和临床结果的看法。JAMA 眼科。2018;136:164–70。
21. 杨X,陈A,PourNejatian N,Shin HC,Smith KE,Parisien C,等。电子健康记录的大型语言模型。NPJ 数字医学。2022;5:194。
22. Hutson M. 人工智能可以帮助你写下一篇论文吗?自然。2022;611:192–3。
23. ChatGPT 等工具威胁透明科学;以下是我们使用它们的基本规则。自然。2023;613:612。
24. Stokel-Walker C. ChatGPT 被列为研究论文的作者:许多科学家不同意。自然。2023;613:620–1。
25. Madani A、Krause B、Greene ER、Subramanian S、Mohr BP、Holton JM 等。大型语言模型生成跨不同家族的功能蛋白质序列。纳特生物技术公司。2023;https://doi.org/10.1038/s41587-022-01618-2。
26. Kung TH、Cheatham M、Medenilla A、Sillos C、De Leon L、Elepaño C 等。ChatGPT 在 USMLE 上的表现:使用大型语言模型进行人工智能辅助医学教育的潜力。PLOS 数字健康。2023;2:e0000198。
27. 魏杰,王X,Schuurmans D,Bosma M,Ichter B,夏F,等。思维链提示引发大型语言模型中的推理。NeurIPS 2022 会议。2022 年。
28. 杨X,陈A,PourNejatian N,Shin HC,Smith KE,Parisien C,等。GatorTron:一种大型临床语言模型,可从非结构化电子健康记录中解锁患者信息。arXiv. 2022 年;https://doi.org/10.48550/arXiv.2203.03540。
29. Azamfirei R、Kudchadkar SR、Fackler J。大型语言模型及其幻觉的危险。危重护理。2023;27:120。
30. 王明,秦燕,刘杰,李文。识别万物互联的个人生理数据风险:以人脸数据泄露风险为例。人文社会科学。通讯。2023 年;10:216。

本文来源:https://www.nature.com/articles/s41433-023-02619-4


免责声明:部分文章转载自互联网及其他公众平台,转载文章 旨在知识分享,如涉及作品内容、版权和其它问题,请联系我们删除!内容仅供读者参考,特约授权文章版权归原作者所有,转载须得授权!文章内容为作者个人观点,并不代表本公众号赞同或支持其观点。