1. ESMFold2 把蛋白质预测从“结构生成”推向“世界模型”：6.8亿序列和1.1亿结构背后，AI科研开始有自己的基础设施

2026年5月28日 · 791 字 · AI 趋势日报深度解读

蛋白质 AIESMFold2科研基础设施

ESMFold2 发布，表面上看是一篇蛋白质模型更新，真正值得注意的是它把蛋白质 AI 从“预测一个结构”推进到“构建一个可以被反复检索和设计的生物世界模型”。文章给出的数字非常硬：团队发布了一个覆盖 6.8 亿蛋白质、包含 1.1 亿预测结构 的数据库，而模型本身并不是靠人工标注堆出来的，而是继续沿着大规模序列数据上的 Transformer 无监督学习路线往前走。

为什么重要？因为这意味着生命科学里最贵的那部分环节，正在被重新软件化。AlphaFold 时代证明了结构预测能做出来，但 ESMFold2 更进一步的地方在于，它把“预测、设计、发现”放进了一个统一引擎中。只要数据库规模足够大，研究者面对的就不再只是单次推理，而是一个能支持相互作用预测、候选筛选和功能探索的工作台。

数据规模

6.8亿

结构覆盖

1.1亿

研究可复用性

数据库化

更关键的细节是，报道明确提到它在部分任务上已经超过 AlphaFold3，尤其是在蛋白质相互作用预测上表现亮眼。这类任务的难点不只是“单个分子长什么样”，而是“分子之间怎么作用”，这直接关系到药物发现、抗体设计和工业酶工程的真实价值。如果说生成式 AI 在文生文、文生图阶段解决的是内容供给问题，那么蛋白质模型解决的就是实验假设供给问题：先用计算把可行空间缩小，再把真正昂贵的湿实验资源集中到更可能成功的候选上。

今天同一批文章里还有 Google Co-scientist 这类多智能体科研系统讨论，和 ESMFold2 放在一起看，信号就更完整了：一边是“生成假设的代理系统”，另一边是“承接这些假设的大规模科学世界模型”。AI 在科研里的角色，正在从助手变成实验前端的认知压缩层。

一句话判断：ESMFold2 的价值不只是一个新模型，而是 AI 科研正在拥有像搜索引擎和代码仓库那样可累积的基础设施。