Nature:基于大型语言模型的自主化学研究(2023)

摘要

摘要图
本研究介绍了名为Coscientist的科学智能系统,其基于GPT-4驱动,通过集成互联网和文档检索、代码执行以及实验自动化,能够自主设计、规划并执行复杂实验。该系统成功展示了六项多样化任务的研究能力,包括钯催化偶联反应的优化,以及多模块实验设计和执行的先进能力,证明了其在推动科学研究中的高效性与多功能性。

关键词

  • 自主化学研究 (Autonomous chemical research)
  • 大型语言模型 (Large language models)
  • 化学实验设计 (Chemical experiment design)
  • 实验自动化 (Experimental automation)
  • 反应优化 (Reaction optimization)
  • 科学智能系统 (Scientific intelligent systems)
  • 化学人工智能 (Chemical AI)

研究背景

近年来,基于Transformer的大型语言模型(LLMs)在自然语言处理、生物学、化学及计算机编程等领域取得重大进展。同时,化学研究的自动化水平显著提高,诸如自动发现反应及优化、流动系统开发和移动化学平台等技术快速发展。将实验室自动化技术与强大的LLMs结合,有望开发出能够自主设计并执行科学实验的系统。Coscientist作为一个多模块智能代理,通过GPT-4及辅助工具完成了从实验设计到执行的全过程,表明该系统具有极大的研究潜力和应用前景。

创新点

  • 开发了整合大型语言模型的科学智能系统,可实现从实验设计到执行的全流程自主化。
  • 提出了多模块交互框架,利用网络搜索、文档检索和代码执行完成复杂任务。
  • 成功验证了钯催化偶联反应优化等多种复杂化学任务的有效性。
  • 系统具备对实验结果的解释能力,可为科学研究提供新方法。

研究内容

本研究通过开发Coscientist系统,展示了其在化学研究中的多样化应用。Coscientist整合了网络搜索、文档检索、代码执行及实验自动化模块,以GPT-4为核心,通过预设命令实现复杂实验的自主设计与执行。在实验设计中,Coscientist能够通过在线检索、数据分析、反应条件计算和自动代码生成,完成钯催化交叉偶联反应等复杂实验,并通过自动化设备进行验证。研究显示,该系统不仅能够解决实验优化问题,还能通过多模块整合,在不同任务间自由切换,展示了其灵活性与高效性。

图1
图1 | 系统架构。

(a) Coscientist 由多个模块组成,这些模块相互交换消息。蓝色背景框表示 LLM 模块,绿色框为 Planner 模块,红色框为输入提示。白色框表示不使用 LLM 的模块。
(b) 使用各模块或其组合进行实验的类型。
(c) 包含液体处理器的实验装置图片。UV-Vis 表示紫外-可见光模块。

图2
图2 | Coscientist 在化学合成规划任务中的能力。

(a) 不同 LLM 在化合物合成基准测试中的比较。误差条表示标准差值。
(b) 对硝基苯胺的两个生成合成示例。
(c) 对布洛芬的两个生成合成示例。UV 表示紫外光。

图3
图3 | 文档搜索概览。

(a) 通过 ada 嵌入和基于距离的向量搜索实现从提示到代码的转换。
(b) 使用 OT-2 的加热-振动模块的代码示例。
(c) 通过补充文档实现从提示到函数/提示到符号实验室语言 (SLL)。
(d) 用于高效液相色谱 (HPLC) 实验的有效 ECL SLL 代码示例。

图4
图4 | 机器人液体处理器控制能力及与分析工具的集成。

(a) Coscientist 的配置概览。
(b) 绘制一个红色十字。
(c) 着色每隔一行。
(d) 绘制一个黄色矩形。
(e) 绘制一个蓝色对角线。

结论与展望

本研究通过Coscientist系统展示了基于大型语言模型的科学研究智能化解决方案,其在多任务实验设计与执行中的成功表明,未来基于LLMs的科学智能系统将有助于加速科学发现。然而,为确保技术安全性与可控性,需进一步探索智能系统的伦理应用及潜在风险。

论文直达

原文标题:Autonomous chemical research with large language models

Nature 2023, 624, 570–577.

点击以下链接阅读原文:

原论文链接 >>>