Proteina-Complexa：统一生成式预训练与推理时间优化的蛋白质结合剂设计【潇洒记忆】

Proteina-Complexa：统一生成式预训练与推理时间优化的蛋白质结合剂设计

发表于 2026-03-18 | 更新于 2026-03-26

ai | protein design | binder design | flow matching | nvidia

论文：Scaling Atomistic Protein Binder Design with Generative Pretraining and Test-Time Compute
来源：ICLR 2026
机构：NVIDIA
官网：https://research.nvidia.com/labs/genair/proteina-complexa
代码：https://github.com/NVIDIA-Digital-Bio/proteina-complexa
论文评审：https://openreview.net/forum?id=qmCpJtFZra

一句话总结

Proteina-Complexa 是 NVIDIA 提出的首个统一生成式预训练与推理时间优化的蛋白质结合剂（binder）设计框架，结合了生成模型与”幻觉”(hallucination)方法的优势，在蛋白质靶点、小分子靶点和酶设计任务上均达到了新的 SOTA 水平。

核心创新点

Proteı́na-Complexa 的核心贡献可提炼为以下三点：

统一范式（Unified Paradigm）：首次打破了“单纯生成式模型（如 RFDiffusion）”与“单纯幻觉优化（如 BindCraft）”的二元对立，提出了 “潜空间生成搜索（Latent Generative Search）”。它将强大的生成先验与推理端优化相结合，利用生成模型作为高效的搜索起点。
Teddymer 数据集：针对 PDB 中高质量复合体数据稀缺的瓶颈，研究团队从 AlphaFold Database (AFDB) 的 47M 结构中提取“域-域（Domain-domain）”相互作用，合成了规模达 3.5M 聚类中心的 Teddymer 数据集，为全原子预训练提供了规模化支撑。
推理端缩放（Test-time Scaling）：借鉴 LLM 的 Reasoning 思路，在采样过程中引入 Feynman–Kac Steering (FKS)、MCTS 及 Beam Search。通过投入更多推理算力，模型能显著提升在复杂靶点上的设计成功率，实现性能随算力投入的非线性增长。

Proteina-Complexa's generation and inference-time optimization pipeline

1. 统一生成式与幻觉方法：基于 La-Proteı́na 的部分潜空间流匹配

架构设计原理解析

在处理全原子数据时，计算复杂度是首要挑战。Complexa 采用了“部分潜空间”架构：将 $C\alpha$ 骨架保持在显空间以维持几何直观性，而将复杂的侧链分布与氨基酸序列压缩至 8 维连续潜变量中。这种设计的关键在于 VAE 模块的冻结共享策略：VAE 仅在单体 Binder 上预训练且在后续流程中保持冻结，而由 Transformer Denoiser 负责处理复杂的靶点条件化逻辑，实现了计算效率与表达精度的平衡。

算法核心组件表

组件名称	输入/输出内容	在 Complexa 中的关键作用
VAE Encoder/Decoder	全原子坐标 $\leftrightarrow$ 潜变量 + $C\alpha$ 坐标	降低全原子数据的维度，将混合的离散/连续空间转化为统一的连续向量表示。
Transformer Denoiser	噪声潜变量 + 目标特征	利用 Multi-head Pair-biased Attention 建模，预测向量场。避免了昂贵的三角形更新层。
条件化机制	Hotspot 标记 + 目标 Atom37	采用潜空间条件化机制，通过跨注意力引导 Binder 的全局定位与界面匹配。

该架构摒弃了传统模型中沉重的计算模块，单次采样速度极快（约 15.6 秒），这使得大规模的搜索策略（如 MCTS）在工业应用中变得可行。

图注：A frozen autoencoder (top) encodes fully atomistic proteins into a partially latent representation (alpha-carbon coordinates + continuous per-residue latents) and decodes them back. The target-conditioned denoiser (bottom) concatenates embedded target features (Atom37 coordinates, amino acid identity, hotspot tokens) with the binder’s noisy latent and backbone embeddings, processing them jointly through multi-head pair-biased attention layers.

2. 数据集的收集与处理：Teddymer 与多阶段策略

模型训练用到了下列四个数据, 考虑由于 PDB 中实验解析的复合物结构有限，作者提出从 AlphaFold Database (AFDB) 中提取蛋白质结构域相互作用，构建大规模合成 binder-target 数据集(Teddymer)：

数据质量直接决定了生成模型的“物理直觉”。PDB 中约 22.5 万个条目对于全原子生成而言过于稀疏。Complexa 团队提出了一个深刻的洞察：单体蛋白内部域与域之间的界面物理规律，与链间界面高度一致。

数据源：从 AFDB50 数据库中提取 47M 具有 TED（Encyclopedia of Domains）标注的预测结构。
合成逻辑：将单体蛋白按 TED 标注拆分为独立域，模拟为“结合剂-靶点”对。
筛选标准：仅保留符合 C.A.T. 标注、界面 pLDDT > 70 且 ipAE < 10 的高质量二聚体。
规模：从 10M 原始二聚体中，通过 Foldseek 聚类生成 3.5M 聚类中心，最终精炼出 510k 高质量训练集。

为了证明模型学习的是物理通用性而非简单的结构记忆，团队使用了 Foldseek 进行结构层级的聚类去重。通过严格过滤测试集靶点的同源结构，确保模型在处理新靶点时依靠的是从 Teddymer 中汲取的界面相互作用规律。

3. 推理时间优化策略

借鉴大语言模型推理时扩展技术，引入多种搜索策略：

Best-of-N：采样多个候选，选最优
Beam Search：束搜索引导生成
Feynman-Kac Steering：基于能量的引导
MCTS：蒙特卡洛树搜索

测试的靶点与结果

In silico Performance and Benchmarking

Generative Base Model

Inference-Time Compute Scaling

Unique success rate vs. optimization time (GPU hours) for easy targets (left) and hard targets (right). Proteina-Complexa’s search methods (colored curves) consistently outperform hallucination baselines (BindCraft, BoltzDesign, AlphaDesign) under normalized compute budgets.

蛋白质靶点

测试了多个具有挑战性的蛋白质靶点：

TNF-α（三链靶点）
Claudin-1（跨膜蛋白）
IFNAR2（干扰素受体）
IL-17A（双链靶点）
PD-1/PD-L1 等

小分子靶点

SAM、IAI、FAD、OQO 等

酶设计任务 (AME Benchmark)

在 Atomic Motif Enzyme (AME) 基准上测试，包含 41 个任务。

Number of unique successes per task (41 tasks, 100 samples each) for Proteina-Complexa vs. RFDiffusion2, comparing self-generated sequences, single LigandMPNN redesign, and best-of-8 LigandMPNN redesigns. Proteina-Complexa outperforms RFDiffusion2 on the vast majority of tasks across all evaluation settings.

成功率对比

方法	蛋白质靶点	小分子靶点	AME 基准
RFDiffusion	基准	-	基准
Protpardelle	较低	-	-
BindCraft (幻觉方法)	基准	-	-
Proteina-Complexa	最高	最高	最高

关键发现：

Complexa 在 38/41 个 AME 任务上优于 RFDiffusion2
推理时间优化策略在归一化计算预算下显著优于幻觉方法
无需序列重设计（self-sequence 即可达到高成功率）

湿实验证

本文的一个亮点是进行了 wet lab 验证！据官网报道，Proteina-Complexa 设计的 binder 已在实验中获得验证，显示 in-silico 成功可以转化为实际结合活性。

详细实验数据见：验证实验论文

生成示例

官网提供了多个生成示例的3D可视化, 大分子

PDL1靶点

Claudin-1靶点

H1靶点

PAD靶点

IAI靶点

OQO靶点

代码开源情况

许可证

根据 GitHub 仓库，代码采用 NVIDIA Software License（非标准开源许可证），需遵守 NVIDIA 的许可条款。

部署方式

提供两种部署方式：

本地部署：Ubuntu 22.04+，需要构建 UV 环境
Docker 容器：推荐方式，包含所有依赖

# 克隆仓库
git clone https://github.com/NVIDIA-Digital-Bio/Proteina-Complexa

# 构建环境
cd Proteina-Complexa
./env/build_uv_env.sh

# 或使用 Docker
docker build -t proteina-complexa -f env/docker/Dockerfile .

模型权重

需要从 NVIDIA NGC 下载模型权重：

蛋白质 binder 模型
小分子 binder 模型
AME（motif scaffolding）模型

1
2
3

# 初始化
complexa init
complexa download --all

依赖工具

AlphaFold2 / RoseTTAFold3（用于 reward 评估）
Foldseek、MMseqs2、DSSP、SC 等生物信息学工具

训练策略

阶段性训练

第一阶段：仅在 monomer 上训练，获得通用蛋白结构生成能力
第二阶段：在 Teddymer + PDB multimers 上训练 binder-target 对
第三阶段：高质量实验多聚体精调

损失函数

部分潜在流匹配损失
引入 Translation Noise（平移噪声）增强 binder 定位能力

消融实验表明：无 Translation Noise 会导致 binder 放置位置不佳；无 Teddymer 数据会导致性能大幅下降。

优缺点分析

todo

值得探索的方向

DNA/RNA 靶点：扩展到核酸靶点
联合训练：单一模型支持多种分子模态
更多实验验证：更多靶点的 wet lab 验证
特异性/热稳定性：集成更多评估指标

参考文献

Didi, K. et al. (2026). Scaling Atomistic Protein Binder Design with Generative Pretraining and Test-Time Compute. ICLR 2026.
Geffner, T. et al. (2026). La-Proteína: Fully Atomistic Protein Generation with Flow Matching.
Watson, J. et al. (2023). RFDiffusion: Protein binder design.
Pacesa, M. et al. (2025). BindCraft: Hallucination-based binder design.

本文作者: GCS-ZHN

本文链接: https://gcszhn.top/2026/03/18/Proteina-Complexa：统一生成式预训练与推理时间优化的蛋白质结合剂设计/