编辑丨coisini
有机合成是分子创新的基础引擎,能够创造出多种先进功能分子。尽管现代算法能够在计算机中设计数百万种新颖分子,但分子的实际合成仍是主要瓶颈。这一过程通常需要密集的资源投入,并高度依赖于化学家在多年实践中积累的隐性知识与专业直觉。
核心挑战在于如何弥合计算路线设计与实际实验室操作之间的鸿沟,尤其是准确预测每个合成步骤的可行实验方案。
基于此,来自微软研究院科学智能中心(Microsoft Research AI for Science)、北京大学、上海交通大学的研究团队提出了一种能够通过显式思维链推理,直接根据反应方程式生成精确结构化实验方案的科学推理语言模型 ——QFANG。
论文链接:https://arxiv.org/abs/2512.13668
科学推理模型QFANG
通过在大规模化学文献、反应数据库及实验方案语料上进行训练,大型语言模型(LLM)内化了数十年研究积累的既定原理、先例反应及方法变体的统计规律。
早期利用 LLM 的尝试主要基于精心构建的动作级数据集,采用通用模型进行少量样本的上下文学习。然而,上下文学习依赖于有限示例的类比推理,因此难以形成对化学的机制性理解。模型应超越类比模仿,接受化学推理的显式训练,从而实现在未见案例上的泛化能力。
为了构建 QFANG,研究团队利用 LLM 从专利文献中提取并处理了 905990 个化学反应及其对应的结构化操作序列,构建了高质量数据集。
研究团队提出了化学引导推理框架,基于化学知识大规模生成具有化学依据的思维链数据;随后通过监督微调激发模型的复杂化学推理能力,并采用可验证奖励强化学习进一步优化实验步骤的准确性。
化学引导推理框架首先通过程序化方式构建捕捉化学反应核心逻辑的事实骨架,随后利用 LLM 将其扩展为专家风格的思维链。
QFANG 填补了合成规划与机器可读实验室操作间的关键空白,能够生成高保真度的化学实验流程。总的来说,QFANG 建立在三大支柱之上:
实验评估
为评估 QFANG 的能力,研究团队将其与先进的通用推理模型及最邻近检索基线进行比较。
QFANG 的 BLEU-4 得分达到 61.3,显著优于检索增强的三样本 GPT-5 基线(54.4 分);在专家评审评估中,这一优势进一步扩大。
研究团队还采用 LLM 作为「评判者」,评估了 QFANG 及其他模型的化学推理能力,结果表明 QFANG 能够保持高化学有效性。
深入分析表明,QFANG 能良好泛化至领域外反应、根据化学家设定的约束调整实验方案,甚至能修正训练数据中存在缺陷的步骤。
QFANG 展现出超越简单模式匹配的深层化学理解能力。通过生成稳健性强、推理严谨且机器可读的实验方案,QFANG 为打通计算设计与实验室执行的闭环迈出了关键一步,为推动下一代科学发现自主平台的发展做出重要贡献。
感兴趣的读者可以阅读论文原文,了解更多研究内容。