1. ESMFold2 把蛋白质预测从“结构生成”推向“世界模型”:6.8亿序列和1.1亿结构背后,AI科研开始有自己的基础设施
ESMFold2 发布,表面上看是一篇蛋白质模型更新,真正值得注意的是它把蛋白质 AI 从“预测一个结构”推进到“构建一个可以被反复检索和设计的生物世界模型”。文章给出的数字非常硬:团队发布了一个覆盖 6.8 亿蛋白质、包含 1.1 亿预测结构 的数据库,而模型本身并不是靠人工标注堆出来的,而是继续沿着大规模序列数据上的 Transformer 无监督学习路线往前走。
为什么重要?因为这意味着生命科学里最贵的那部分环节,正在被重新软件化。AlphaFold 时代证明了结构预测能做出来,但 ESMFold2 更进一步的地方在于,它把“预测、设计、发现”放进了一个统一引擎中。只要数据库规模足够大,研究者面对的就不再只是单次推理,而是一个能支持相互作用预测、候选筛选和功能探索的工作台。
更关键的细节是,报道明确提到它在部分任务上已经超过 AlphaFold3,尤其是在蛋白质相互作用预测上表现亮眼。这类任务的难点不只是“单个分子长什么样”,而是“分子之间怎么作用”,这直接关系到药物发现、抗体设计和工业酶工程的真实价值。如果说生成式 AI 在文生文、文生图阶段解决的是内容供给问题,那么蛋白质模型解决的就是实验假设供给问题:先用计算把可行空间缩小,再把真正昂贵的湿实验资源集中到更可能成功的候选上。
今天同一批文章里还有 Google Co-scientist 这类多智能体科研系统讨论,和 ESMFold2 放在一起看,信号就更完整了:一边是“生成假设的代理系统”,另一边是“承接这些假设的大规模科学世界模型”。AI 在科研里的角色,正在从助手变成实验前端的认知压缩层。
一句话判断:ESMFold2 的价值不只是一个新模型,而是 AI 科研正在拥有像搜索引擎和代码仓库那样可累积的基础设施。