AI 每日精选 · 2026-04-22

谷歌突击队、600万颗假Star与104B高能效模型:AI开始比拼真实产能

今天最有意思的变化,是行业终于不太愿意只讨论“模型强不强”了。无论是谷歌为了追赶Anthropic在AI编程上拉起突击队,还是研究者把GitHub上约600万颗假Star这层泡沫直接揭开,再到国产模型把“每百万token多少钱、端侧任务完成率多少”写进卖点,大家都在往同一个方向收束:能不能稳定写代码、能不能压住成本、能不能经得住真实评测,这些比漂亮叙事更重要。

深度解读 3 组主题快讯扫描 9 条覆盖窗口:04-21 20:00 → 04-22 20:00(北京时间)

深度解读

主题 1|AI 编程进入组织战

谷歌临时组建“突击队”,说明代码智能体已经不只是产品功能

今天最值得细看的,是谷歌内部组建AI编程突击队这件事。表面上看,这是一次针对Anthropic Claude Code压力的应急反应;但更深一层,它意味着AI编程已经从“谁家助手更好用”,升级为“谁能让模型长期自主完成真实工程任务”的组织级竞争。

为什么重要?因为代码场景是目前最容易把模型能力、上下文长度、工具调用和商业付费打包验证的场景。报道里提到,谷歌内部已有约50%的代码由AI参与完成,而Anthropic在相关叙事中把占比推到了100%。这两个数字未必完全可横向比较,但它们共同说明:大厂现在不是把编程助手当增值插件,而是把它视为下一代研发生产线。

更关键的是,Anthropic短暂调整Claude Code权益也从另一个方向给出了信号。高强度编程代理很吃算力,单用户消耗远高于普通对话,因此订阅模型开始顶不住。再结合关于AI工程化竞争的分析,可以看出真正的分水岭不是模型会不会写函数,而是谁能把长任务、多轮调用、仓库级理解、成本控制和商业套餐同时跑通。2026年的AI编程,不再是Demo战争,而是组织、算力和定价模型的三线联动。

主题 2|泡沫被量化

GitHub约600万颗假Star,把AI项目“热度即价值”的逻辑戳穿了

卡内基梅隆大学的研究给出了一组很刺眼的数据:GitHub上约有600万颗假Star,涉及18617个仓库和30万个账号,而且AI/LLM项目是重灾区。这件事之所以值得放进深度解读,不是因为“刷量”本身新鲜,而是因为它点破了当下AI融资和项目筛选中的一个共识幻觉——大家太习惯把公开平台热度当成能力代理变量了。

为什么重要?因为Star本来应该是开发者社区自发形成的弱信号,如今却被放大成融资门槛、招聘背书甚至媒体排序依据。研究里提到,假Star已经形成产业链,单价从0.03美元到0.9美元不等,甚至还有API可批量购买。也就是说,原本用来降低信息不对称的公共指标,自己先被产业化操纵了。

这会直接反向推动行业把注意力从“表面关注度”切回“真实产能”。你会发现今天很多新闻都在强调更硬的指标:比如蚂蚁Ling-2.6-flash直接写清输入0.1美元/百万tokens、输出0.3美元/百万tokens;商汤绝影Sage则给出PinchBench 94%的任务完成率。换句话说,行业正在被迫从虚荣指标,转向可验证、可复算、可落地的经营指标。

主题 3|效率开始压过参数崇拜

104B参数Ling-2.6-flash和端侧Sage,正在把竞争拉回“每次任务花多少钱”

如果说前两条新闻讲的是研发端和资本端的压力,那么今天在产品端最明确的趋势,就是效率指标被摆到了台前。蚂蚁百灵发布Ling-2.6-flash,参数量104B、激活参数7.4B,核心卖点不是“更大”,而是更快更省,输入价格0.1美元/百万tokens、输出0.3美元/百万tokens。这个定价姿态很说明问题:厂商开始默认客户会精打细算地核对单位成本,而不是只看榜单名次。

另一边,商汤绝影Sage把叙事推进到了端侧智能体。它在PinchBench上拿到94%的任务完成率,甚至号称超过一些云端模型,并已落到英伟达OrinX平台。这意味着过去“端侧一定弱、云端一定强”的直觉正在被松动:只要任务定义清晰、工具链合适,端侧方案在时延、隐私和成本上反而可能更有优势。

把这两件事连起来看,就能理解大模型涨价与价值战为什么会发生。智能体时代的token消耗是指数级的,便宜但跑不动、强大但用不起,都会被市场迅速淘汰。接下来比拼的,不是谁喊出更惊人的参数规模,而是谁能在真实场景里给出更低的单位成本、更高的完成率,以及更稳定的部署方式。

快讯

360把漏洞挖掘智能体推到台前

360披露两项重大发现,包括一个潜伏近5年的Windows内核提权漏洞和一个潜伏8年的Office远程代码执行漏洞,影响超10亿用户。安全行业开始出现真正以多智能体协同为核心的“自动挖洞”生产方式。

MotuBrain拿下双榜第一

MotuBrain同时登顶WorldArena和RoboTwin2.0,说明世界模型与行动控制统一建模的路线,正在机器人领域获得更强验证。

苹果继续押注Mamba路线

苹果提出跨架构蒸馏方法,尝试把Transformer能力迁移到更经济的Mamba结构。核心目标仍是降推理成本,而不是一味追逐更重的模型架构。

ProSafePrune瞄准大模型“过度拒绝”

合肥工业大学与科大讯飞团队用低秩参数修剪缓解误拒问题,而且无需额外训练。安全校准开始从粗暴加限制,转向更精细的能力修正。

单图生成可动3D模型继续推进

MonoArt从单张图片恢复几何、部件和运动参数,目标是直接得到可动3D表示。对游戏、机器人仿真和数字内容生产都很实用。

荣耀把YOYO Claw预装到PC

荣耀MagicBook预置YOYO Claw,强调技能自生成和工作流自进化。消费级终端厂商正在把Agent能力直接做成开箱即用的系统体验。

AI短剧制作开始出现单兵流水线

SOLO MTC模式结合Seedream、Seedance等模型,让个人创作者完成从创意到成片的全流程,内容工业的门槛还在继续下移。

特斯拉车机语音大模型完成备案

上海新增备案信息出现特斯拉车机语音大模型,说明车载语音助手正从传统指令系统转向生成式交互,落地只差产品正式上线。

谷歌突击队、600万颗假Star与104B高能效模型:AI开始比拼真实产能 | AI 趋势