论文:Scaling Atomistic Protein Binder Design with Generative Pretraining and Test-Time Compute
来源:ICLR 2026
机构:NVIDIA
官网:https://research.nvidia.com/labs/genair/proteina-complexa
代码:https://github.com/NVIDIA-Digital-Bio/proteina-complexa
论文评审:https://openreview.net/forum?id=qmCpJtFZra

一句话总结

Proteina-Complexa 是 NVIDIA 提出的首个统一生成式预训练与推理时间优化的蛋白质结合剂(binder)设计框架,结合了生成模型与”幻觉”(hallucination)方法的优势,在蛋白质靶点、小分子靶点和酶设计任务上均达到了新的 SOTA 水平。


核心创新点

Proteı́na-Complexa 的核心贡献可提炼为以下三点:

  • 统一范式(Unified Paradigm): 首次打破了“单纯生成式模型(如 RFDiffusion)”与“单纯幻觉优化(如 BindCraft)”的二元对立,提出了 “潜空间生成搜索(Latent Generative Search)”。它将强大的生成先验与推理端优化相结合,利用生成模型作为高效的搜索起点。
  • Teddymer 数据集: 针对 PDB 中高质量复合体数据稀缺的瓶颈,研究团队从 AlphaFold Database (AFDB) 的 47M 结构中提取“域-域(Domain-domain)”相互作用,合成了规模达 3.5M 聚类中心 的 Teddymer 数据集,为全原子预训练提供了规模化支撑。
  • 推理端缩放(Test-time Scaling): 借鉴 LLM 的 Reasoning 思路,在采样过程中引入 Feynman–Kac Steering (FKS)、MCTS 及 Beam Search。通过投入更多推理算力,模型能显著提升在复杂靶点上的设计成功率,实现性能随算力投入的非线性增长。
Proteina-Complexa's generation and inference-time optimization pipeline

1. 统一生成式与幻觉方法:基于 La-Proteı́na 的部分潜空间流匹配

架构设计原理解析

在处理全原子数据时,计算复杂度是首要挑战。Complexa 采用了“部分潜空间”架构:将 $C\alpha$ 骨架保持在显空间以维持几何直观性,而将复杂的侧链分布与氨基酸序列压缩至 8 维连续潜变量中。这种设计的关键在于 VAE 模块的冻结共享策略:VAE 仅在单体 Binder 上预训练且在后续流程中保持冻结,而由 Transformer Denoiser 负责处理复杂的靶点条件化逻辑,实现了计算效率与表达精度的平衡。

算法核心组件表

组件名称 输入/输出内容 在 Complexa 中的关键作用
VAE Encoder/Decoder 全原子坐标 $\leftrightarrow$ 潜变量 + $C\alpha$ 坐标 降低全原子数据的维度,将混合的离散/连续空间转化为统一的连续向量表示。
Transformer Denoiser 噪声潜变量 + 目标特征 利用 Multi-head Pair-biased Attention 建模,预测向量场。避免了昂贵的三角形更新层。
条件化机制 Hotspot 标记 + 目标 Atom37 采用潜空间条件化机制,通过跨注意力引导 Binder 的全局定位与界面匹配。

该架构摒弃了传统模型中沉重的计算模块,单次采样速度极快(约 15.6 秒),这使得大规模的搜索策略(如 MCTS)在工业应用中变得可行。

Proteina-Complexa's architecture
Proteina-Complexa's architecture

图注:A frozen autoencoder (top) encodes fully atomistic proteins into a partially latent representation (alpha-carbon coordinates + continuous per-residue latents) and decodes them back. The target-conditioned denoiser (bottom) concatenates embedded target features (Atom37 coordinates, amino acid identity, hotspot tokens) with the binder’s noisy latent and backbone embeddings, processing them jointly through multi-head pair-biased attention layers.

2. 数据集的收集与处理:Teddymer 与多阶段策略

模型训练用到了下列四个数据, 考虑由于 PDB 中实验解析的复合物结构有限,作者提出从 AlphaFold Database (AFDB) 中提取蛋白质结构域相互作用,构建大规模合成 binder-target 数据集(Teddymer):

Teddymer data
All training datasets

数据质量直接决定了生成模型的“物理直觉”。PDB 中约 22.5 万个条目对于全原子生成而言过于稀疏。Complexa 团队提出了一个深刻的洞察:单体蛋白内部域与域之间的界面物理规律,与链间界面高度一致。

  1. 数据源: 从 AFDB50 数据库中提取 47M 具有 TED(Encyclopedia of Domains)标注的预测结构。
  2. 合成逻辑: 将单体蛋白按 TED 标注拆分为独立域,模拟为“结合剂-靶点”对。
  3. 筛选标准: 仅保留符合 C.A.T. 标注、界面 pLDDT > 70 且 ipAE < 10 的高质量二聚体。
  4. 规模: 从 10M 原始二聚体中,通过 Foldseek 聚类生成 3.5M 聚类中心,最终精炼出 510k 高质量训练集。

为了证明模型学习的是物理通用性而非简单的结构记忆,团队使用了 Foldseek 进行结构层级的聚类去重。通过严格过滤测试集靶点的同源结构,确保模型在处理新靶点时依靠的是从 Teddymer 中汲取的界面相互作用规律。

3. 推理时间优化策略

借鉴大语言模型推理时扩展技术,引入多种搜索策略:

  • Best-of-N:采样多个候选,选最优
  • Beam Search:束搜索引导生成
  • Feynman-Kac Steering:基于能量的引导
  • MCTS:蒙特卡洛树搜索

测试的靶点与结果

In silico Performance and Benchmarking

Generative Base Model

Inference-Time Compute Scaling

Inference-time compute scaling for protein targets
small molecule targets

Unique success rate vs. optimization time (GPU hours) for easy targets (left) and hard targets (right). Proteina-Complexa’s search methods (colored curves) consistently outperform hallucination baselines (BindCraft, BoltzDesign, AlphaDesign) under normalized compute budgets.

  1. 蛋白质靶点

测试了多个具有挑战性的蛋白质靶点:

  • TNF-α(三链靶点)
  • Claudin-1(跨膜蛋白)
  • IFNAR2(干扰素受体)
  • IL-17A(双链靶点)
  • PD-1/PD-L1
  1. 小分子靶点
  • SAM、IAI、FAD、OQO 等

酶设计任务 (AME Benchmark)

在 Atomic Motif Enzyme (AME) 基准上测试,包含 41 个任务。

AME enzyme design benchmark results

Number of unique successes per task (41 tasks, 100 samples each) for Proteina-Complexa vs. RFDiffusion2, comparing self-generated sequences, single LigandMPNN redesign, and best-of-8 LigandMPNN redesigns. Proteina-Complexa outperforms RFDiffusion2 on the vast majority of tasks across all evaluation settings.

成功率对比

方法 蛋白质靶点 小分子靶点 AME 基准
RFDiffusion 基准 - 基准
Protpardelle 较低 - -
BindCraft (幻觉方法) 基准 - -
Proteina-Complexa 最高 最高 最高

关键发现:

  • Complexa 在 38/41 个 AME 任务上优于 RFDiffusion2
  • 推理时间优化策略在归一化计算预算下显著优于幻觉方法
  • 无需序列重设计(self-sequence 即可达到高成功率)

湿实验证

本文的一个亮点是进行了 wet lab 验证!据官网报道,Proteina-Complexa 设计的 binder 已在实验中获得验证,显示 in-silico 成功可以转化为实际结合活性。

详细实验数据见:验证实验论文


生成示例

官网提供了多个生成示例的3D可视化, 大分子

PDL1靶点
Claudin-1靶点
H1靶点
PAD靶点
IAI靶点
OQO靶点

代码开源情况

许可证

根据 GitHub 仓库,代码采用 NVIDIA Software License(非标准开源许可证),需遵守 NVIDIA 的许可条款。

部署方式

提供两种部署方式:

  1. 本地部署:Ubuntu 22.04+,需要构建 UV 环境
  2. Docker 容器:推荐方式,包含所有依赖
1
2
3
4
5
6
7
8
9
# 克隆仓库
git clone https://github.com/NVIDIA-Digital-Bio/Proteina-Complexa

# 构建环境
cd Proteina-Complexa
./env/build_uv_env.sh

# 或使用 Docker
docker build -t proteina-complexa -f env/docker/Dockerfile .

模型权重

需要从 NVIDIA NGC 下载模型权重:

  • 蛋白质 binder 模型
  • 小分子 binder 模型
  • AME(motif scaffolding)模型
1
2
3
# 初始化
complexa init
complexa download --all

依赖工具

  • AlphaFold2 / RoseTTAFold3(用于 reward 评估)
  • Foldseek、MMseqs2、DSSP、SC 等生物信息学工具

训练策略

阶段性训练

  1. 第一阶段:仅在 monomer 上训练,获得通用蛋白结构生成能力
  2. 第二阶段:在 Teddymer + PDB multimers 上训练 binder-target 对
  3. 第三阶段:高质量实验多聚体精调

损失函数

  • 部分潜在流匹配损失
  • 引入 Translation Noise(平移噪声)增强 binder 定位能力

消融实验表明:无 Translation Noise 会导致 binder 放置位置不佳;无 Teddymer 数据会导致性能大幅下降。


优缺点分析

todo


值得探索的方向

  1. DNA/RNA 靶点:扩展到核酸靶点
  2. 联合训练:单一模型支持多种分子模态
  3. 更多实验验证:更多靶点的 wet lab 验证
  4. 特异性/热稳定性:集成更多评估指标

参考文献

  1. Didi, K. et al. (2026). Scaling Atomistic Protein Binder Design with Generative Pretraining and Test-Time Compute. ICLR 2026.
  2. Geffner, T. et al. (2026). La-Proteína: Fully Atomistic Protein Generation with Flow Matching.
  3. Watson, J. et al. (2023). RFDiffusion: Protein binder design.
  4. Pacesa, M. et al. (2025). BindCraft: Hallucination-based binder design.