AI 每日精选2026年4月9日 · 周四

Meta闭源首秀Muse Spark对标Gemini,AutoSOTA一周刷新105个SOTA,Agent基建三方混战

Meta做了一件所有人都没预料到的事——发布了一款闭源大模型。

Llama 4基准刷榜丑闻让Meta的AI信誉跌至谷底后,扎克伯格选择了一条激进的修复路径:挖来前Scale AI CEO汪韬,给他九个月时间从零重建技术栈。成果就是Muse Spark——Meta AI应用的新底座。

健康问答 超越Gemini图表推理 超越Grok编程任务 仍有差距

Muse Spark不是一个通用的"最强模型"——它原生支持图像、音频、视频与文本的联合理解,内置工具调用和多智能体协调,定位是"个人超级智能"的第一步。在科学、数学和健康领域表现突出,尤其是医疗领域——这让它与Gemini的竞争从通用智能转向了垂直深度。

Meta从Llama的开源旗帜转向闭源,表面上是产品策略调整(先小后大),实际暴露了一个行业信号:当开源模型面临信任危机时,闭源反而成了"信用修复"的手段。汪韬在X上公开承认模型仍需改进,这种透明姿态本身就是对刷榜文化的反叛。

如果一个AI系统能在一周内超越人类研究者一年的实验成果,科研的游戏规则是不是要改写了?

AutoSOTA给出了一个令人不安的答案。这个端到端AI科研自动化工具,以AI顶会前一年的优秀论文为起点,采用多智能体协作框架,配备完善的工具库与技能集,在一周时间内自动发现了105个性能显著提升的模型方案。

105个 超SOTA方案6+个 达论文发表级1周 实验周期

更关键的数字是:其中超过6个方案达到了学术论文发表级别。这意味着AutoSOTA不仅在做增量优化——它在某些场景下已经具备了独立的"科研直觉"。

AutoSOTA的逻辑是"从已有SOTA到新SOTA、从现有代码仓库到新代码仓库"的全自动闭环。这不是让AI写论文,而是让AI做实验。当105个方案中有6个够发表,意味着AI的实验命中率虽然只有约6%,但考虑到一周时间和极低边际成本,这已经远超大多数博士生的产出效率。科研的瓶颈正在从"有没有好想法"转向"能不能跑足够多的实验"。

AI Agent从概念走向生产,卡在哪儿?不是模型能力,而是基础设施

4月9日,三条消息拼出了Agent商业化的完整战场:

Claude Managed Agents
云端托管
模块化API套件,支持长时自主运行和多智能体协同编排,开源Multica已揽获2.6k Star
腾讯云 Agent Runtime
安全沙箱
状态与算力解耦,安全沙箱隔离,行为治理与数据资产独立管理,MiniMax等项目已落地
企享云
近亿A轮
聚焦政企执行沙盒,服务超500万家企业,年调用量破300亿次,"感知-决策-执行"三层闭环

三者的路线完全不同:Anthropic走的是开发者生态——给开发者API,让他们自己搭Agent;腾讯云走的是企业安全合规——先解决"Agent不能乱来"的问题;企享云走的是政企最后一公里——填补大模型与实际业务场景之间的执行断层。

Agent从L2(推理器)向L3(自主执行器)跃迁,谁掌握了执行层基础设施,谁就掌握了商业化入口。这和云计算早期IaaS/PaaS/SaaS的分层竞争如出一辙——最终赢家未必是做模型的,而是做"Agent运行时"的。
  • 🔬 李飞飞World Labs更新Marble模型——Marble 1.1减少视觉瑕疵,1.1-Plus专为大型场景设计,均支持2D和3D输入,已开放API。详情→
  • 🏭 智谱发布GLM-5.1模型——亦庄AI未来大会上亮相,同日发布5000P算力平台和首个AI数据训练基地,模数OPC社区同步发布。详情→
  • 🤖 宇树募资补脑,优必选工业机器人领涨——宇树快速商业化做硬件,优必选深耕"大脑"做工业交付;行业趋势:机器人必须有"脑"才能成为劳动力。详情→
  • 中国AI模型推理成本仅为海外1/10到1/6——凭借全球最大可再生能源体系和东数西算战略,国产Token定价优势明显。详情→
  • 💰 OpenEvidence医疗AI估值120亿美元——聚合美国50%医生,垂直AI应用价值超越通用AI路由器。详情→
  • 🧠 复旦提出DPH-RL方法——解决RLVR训练中模型多样性坍塌问题,通过forward-KL机制保留解题路径多样性,避免灾难性遗忘。详情→
  • 🏠 心忆科技发布情感陪伴机器人"康康"——基于BSLA心理学模型,多模态识别老人微表情与语调,25cm极窄底盘通行全屋。详情→
  • 💬 Gemini新增笔记本功能——集中管理对话和文件,与NotebookLM同步,支持主题划分和文档上传。详情→
  • 📊 Google Finance AI改版全球测试——向100多个国家开放,支持自然语言提问、Deep Search和财报跟踪。详情→
  • 🔥 "同事.Skill"项目GitHub爆红——通过AI复制离职同事的工作能力和性格,引发职场焦虑讨论。详情→
  • 🪖 美军开发AI聊天机器人Victor——基于真实任务数据训练,辅助士兵获取电磁作战配置信息。详情→
  • 🎬 AI短剧侵权治理加速——涉及卡通IP、品牌形象等多类侵权路径,红果短剧等平台启动下架整治。详情→
  • 🐱 用AI养龙虾?实测AI Agent监控猫咪——接入Home Assistant智能家居,发现AI监控Token消耗远超人工成本。详情→
  • 🧩 AI编程工具会话上下文丢失问题——fireworks-sessions-saver工具通过自动追踪和结构化存储解决信息损耗。详情→
  • ♟️ Stockfish Elo 3700但仍非超级智能——无法识别某些明显和棋局面,AI专项超越不等于通用全能。详情→
Meta闭源首秀Muse Spark对标Gemini,AutoSOTA一周刷新105个SOTA,Agent基建三方混战 | AI 趋势