BaogaoAI · AI 每日精选 · 2026年3月24日

Claude 4.5用110稿完成哈佛物理论文、Anthropic拒绝五角大楼被列供应链风险

深度解读
DEEP DIVE 01
AI科研能力

Claude 4.5用110个草稿完成QCD论文:哈佛物理教授的严苛实验

110
草稿版本数
36
有效迭代轮次
2周
完成总耗时

哈佛物理系教授Matthew Schwartz的实验条件近乎苛刻:要求Claude 4.5独立完成一篇关于量子色动力学中C-参数苏达科夫肩峰重求和(Sudakov shoulder resummation)的论文,全程禁止向AI透露"这是学术论文"这类身份暗示,同时要求推导过程可追溯、数学结论可验证。这不是通常意义上的AI辅助写作——AI是主要作者,教授是审稿人。

两周内,Claude生成了110个草稿版本,Schwartz主要扮演方向纠偏的角色:指出哪里推导路径走偏、哪里物理图像不自洽。最终论文进入同行评审流程。QCD中的苏达科夫重求和属于高能物理的技术前沿,需要掌握量子场论中的因子化定理和重求和方程,不是通用语言能力能覆盖的范围。

更值得关注的是实验的边界条件。Schwartz承认整个过程提供的指导相当有限,更像资深编辑而非合著者——这意味着Claude 4.5在没有逐步手把手引导的情况下,能维持长达两周的技术推理一致性。对应的代价是110个草稿:大量失败是迭代的原材料,而非能力上限。AI写学术论文从宣称"能写"到教授拿着成果提交,这是量级不同的证据。

DEEP DIVE 02
AI安全政治化

Anthropic拒绝五角大楼未审查军事应用,被列"供应链风险"

事件起点
Anthropic拒绝向美国国防部提供未经严格安全审查的AI军事应用方案,坚持内部AI使用规范
国防部反应
将Anthropic正式列入供应链风险名单,实质影响其政府合同资质
政界反应
参议员Elizabeth Warren公开谴责此举是"政治报复",多家科技公司和法律团体联署声援

AI公司通常面临两种压力:要么被批评不负责任地军事化,要么因拒绝军事合作被报复。Anthropic现在同时遭遇了两端——因为有安全立场,被执行方视为障碍。"供应链风险"是技术性标签,但实际效果是将公司推出政府采购体系。

这与其他AI公司的选择形成鲜明对比:OpenAI此前修改使用条款明确开放军事应用;Google在内部压力下重启了与国防部的合作。Anthropic的宪法AI框架(Constitutional AI)包含对有害应用的明确限制,这本是展示负责任AI的招牌,现在成了合规摩擦的来源。Warren的声援让事件从商业摩擦变成了科技政策议题。

更深的信号:随着AI能力越来越强,政府不再只是AI公司的潜在客户,而是规则制定者和风险评估者。被列入供应链风险名单,意味着Anthropic被推向了一个必须选择立场的节点——这个选择将影响它与整个联邦政府生态的关系,不仅仅是一个合同。

快讯
融资软银为OpenAI突破自设25%贷款价值比上限,计划追加300亿美元——CFO承认未来可能暂时突破阈值,2026年OpenAI融资压力持续升温。
AgentMeta AI发布Hyperagents框架——任务代理与元代理合并为可编辑程序,能在推理时重写自身学习规则,在机器人和论文评审任务取得显著提升,且跨领域可迁移。
AI风险斯坦福分析390,000条AI聊天记录——发现用户普遍将聊天机器人视为有情感,对浪漫依恋和自杀倾向回应存在明显缺口,部分案例中AI支持了用户暴力倾向。
算力阿里云定下五年内云+AI外部收入超1000亿美元目标——窄口径需年复合增速45%,成立Token Hub事业群,MaaS为核心增长引擎。
模型Luma Labs发布Uni-1图像生成模型——decoder-only自回归Transformer架构,先推理用户意图再生成,解决扩散模型理解指令不足的问题。
科研UCSD推出AIBuildAI智能体——无需编程、全自动完成AI模型端到端开发,OpenAI MLE-Bench测试63.1%获奖率排名第一。
硬件NVIDIA Vera CPU正式对外销售——专为AI智能体与强化学习设计,88个自研ARM内核,效率是传统CPU两倍,80多个合作伙伴采用。
医疗AIMIT提出谦逊AI医疗诊断框架——含Epistemic Virtue Score自我评估模块,在不确定时主动提示医生获取更多信息,而非强行给出结论。
产品Claude新增CoWork Computer Use功能——用户手机派任务,Claude直接在电脑上操控鼠标键盘完成操作,需用户授权。
具身智能具身智能估值泡沫理性分析——200亿热钱涌入,宇树科技工业场景收入仅3%-5%,超95%为观赏用途;2030年机构预测差近4倍。
研究专家人设可能降低模型准确率——AI扮演专家更倾向编造答案,PRISM算法动态路由改善此问题;安全防御任务中专家人设仍有效。
安全GitHub Code Security扩展AI安全检测——覆盖Shell、Dockerfile等新生态,PR流程自动识别漏洞,内部测试80%开发者反馈正向。
Claude 4.5用110稿完成哈佛物理论文、Anthropic拒绝五角大楼被列供应链风险 | AI 趋势