核心发现
最新发布的FormalScience是一套通用、可扩展的人机协同自动形式化管道,让物理学等领域专家不用学Lean语言,即可低成本将LaTeX学术论文转化为语法正确、语义对齐的正式证明。配套构建的FormalPhysics数据集包含200道大学物理题,实现了100%形式化有效性,彻底解决了Dirac符号、矢量微积分等“科学专用符号”的形式化难题。
【导读】
长期以来,将非正式数学推理转化为计算机可验证代码是大模型面临的核心挑战。现代LLM在处理算符、矢量、抽象符号(如Dirac符号、张量)时频频“语义漂移”,科学领域的自动形式化几乎停滞。
痛难点
现有形式化数学基准(如MiniF2F)集中在纯数学符号上,缺乏对像“[[⟨ψ|Â|φ⟩]]”这种量子力学符号、或“∫_V ∇·F dV”这种物理表达的覆盖。LLM生成的代码极易遭遇Notation Collapse(符号坍塌)和Abstraction Elevation(抽象提升),使得原本直观的科学推理变成不可验证的“黑箱”。
FormalScience的核心贡献——Agentic Code Generation in Lean——让一位只懂物理但不懂形式化语言的专家,在“循环中”指导LLM自动生成并调试Lean4证明,实现语法完整性100%、语义对齐度极高。
【核心突破】
1. 通用性架构:领域无关 + 交互式UI
论文发布了一个交互式UI系统,专家以“物理语言→Lean代码→错误反馈→修正”的多阶段智能体流程工作。系统内置RAG(检索增强生成),自动从预定义数学库中检索相关公理/定理,减少幻觉。
| 方法 | 语法有效性 | 语义对齐度 | 领域知识要求 |
|---|---|---|---|
| Zero-shot Prompting | 38% | 低 | LLM无需领域知识 |
| Self-refinement(自我修正) | 62% | 中 | LLM需错误反馈 |
| FormalScience多阶段Agent | 100% | 高 | 专家+LLM协作 |
技术命门
关键设计在于Human-in-the-Loop迭代闭环:当Agent生成的Lean代码无法通过编译器验证(例如语法错误、类型不匹配),系统会将详细错误信息(包括行号、预期/实际类型)反馈回LLM,并加入上下文记忆快照(context snapshot)以维持推理连贯性,而非从头生成。
2. 数据集FormalPhysics:量子+电磁200题全覆盖
数据集涵盖了量子力学(约120题,含Dirac符号、算符作用、不确定性原理)和电磁学(约80题,含矢量微积分、Maxwell方程、格林函数)。
对比维度
传统数据集的语句复杂度分数通常为2-4;而FormalPhysics数据集的语句复杂度平均6.8,接近一线理论物理教材水平。更关键的是——经过Human-in-the-Loop验证的语句形式化有效性达到100%,而现有MiniF2F基准仅为~89%(且部分依赖符号计算中间体,并非完全自动生成)。
| 数据集 | 题目数 | 形式化有效性 | 领域特异性(Dirac符号等) | 语句复杂度 |
|---|---|---|---|---|
| MiniF2F | 488 | ~89% | 无 | 2-4 |
| ProofNet | 371 | ~95% | 部分数学符号 | 3-5 |
| FormalPhysics | 200 | 100% | 高(量子+电磁) | 6.8 |
【深度解析】
语义漂移的首次系统性表征
论文首次定义了科学形式化中的三类语义漂移:
- Notation Collapse(符号坍塌):LLM将“∫_V ∇·F dV”误译为“∫_V F dV”(丢失散度算子),导致物理意义改变。
- Abstraction Elevation(抽象提升):将具体的场方程升格为不必要的高阶范畴论表达,虽然语法正确但语义过度。
- Type Mismatch(类型混乱):常见于向量和标量的混用,例如将“矢量A点乘矢量B”表示为标量乘法。
深入实现细节
多阶段Agent工作流原理:
点击展开原理
**阶段1:需求分析**— 解析原始LaTeX文本,提取数学对象列表(向量场、算符作用域); **阶段2:符号映射**— 通过RAG检索约4000条预定义Lean符号库,自动将“∂/∂t”映射为`Real.derivative`; **阶段3:迭代验证**— 运行Lean编译器,捕获所有错误(如`unknown identifier`、`type mismatch`),将错误信息连同上下文片段前缀发给LLM以修正; **阶段4:专家复审**— UI界面标注语义是否保留,专家可一键否决并填写修正建议(单次修正成本约$0.02)。 整个流程可在5分钟内完成一道复杂量子力学题目的形式化,成本仅为**0.1-0.4美元**。【未来展望】
下一站:多学科自动形式化引擎
作者已经将FormalScience框架设计为**“形式化即服务”层(Formalisation-as-a-Service),未来将扩展至化学(分子对称群、反应动力学)和生物学(基因调控网络、蛋白质折叠方程)。一旦成功,这一框架可让所有学术论文在发表前就拥有可验证的数学内核**。
更远的前沿
目前的局限是:当涉及非标准数学结构(如自定义拓扑、非公理集合)、或需要大型等式库(如对代数的Frobenius定理形式化)时,RAG可能检索不全。作者计划通过交互式知识图谱构建,按学科自动扩充符号库,形成“自适应形式化生态”。 代码与UI预览已经开源。
数据来源论文:FormalScience: Scalable Human-in-the-Loop Autoformalisation of Science with Agentic Code Generation in Lean (arXiv:2604.23002)