Claude 4.5用110稿完成哈佛物理论文、Anthropic拒绝五角大楼被列供应链风险

深度解读

DEEP DIVE 01

AI科研能力

Claude 4.5用110个草稿完成QCD论文：哈佛物理教授的严苛实验

110

草稿版本数

有效迭代轮次

2周

完成总耗时

哈佛物理系教授Matthew Schwartz的实验条件近乎苛刻：要求Claude 4.5独立完成一篇关于量子色动力学中C-参数苏达科夫肩峰重求和（Sudakov shoulder resummation）的论文，全程禁止向AI透露"这是学术论文"这类身份暗示，同时要求推导过程可追溯、数学结论可验证。这不是通常意义上的AI辅助写作——AI是主要作者，教授是审稿人。

两周内，Claude生成了110个草稿版本，Schwartz主要扮演方向纠偏的角色：指出哪里推导路径走偏、哪里物理图像不自洽。最终论文进入同行评审流程。QCD中的苏达科夫重求和属于高能物理的技术前沿，需要掌握量子场论中的因子化定理和重求和方程，不是通用语言能力能覆盖的范围。

更值得关注的是实验的边界条件。Schwartz承认整个过程提供的指导相当有限，更像资深编辑而非合著者——这意味着Claude 4.5在没有逐步手把手引导的情况下，能维持长达两周的技术推理一致性。对应的代价是110个草稿：大量失败是迭代的原材料，而非能力上限。AI写学术论文从宣称"能写"到教授拿着成果提交，这是量级不同的证据。

DEEP DIVE 02

AI安全政治化

Anthropic拒绝五角大楼未审查军事应用，被列"供应链风险"

事件起点

Anthropic拒绝向美国国防部提供未经严格安全审查的AI军事应用方案，坚持内部AI使用规范

国防部反应

将Anthropic正式列入供应链风险名单，实质影响其政府合同资质

政界反应

参议员Elizabeth Warren公开谴责此举是"政治报复"，多家科技公司和法律团体联署声援

AI公司通常面临两种压力：要么被批评不负责任地军事化，要么因拒绝军事合作被报复。Anthropic现在同时遭遇了两端——因为有安全立场，被执行方视为障碍。"供应链风险"是技术性标签，但实际效果是将公司推出政府采购体系。

这与其他AI公司的选择形成鲜明对比：OpenAI此前修改使用条款明确开放军事应用；Google在内部压力下重启了与国防部的合作。Anthropic的宪法AI框架（Constitutional AI）包含对有害应用的明确限制，这本是展示负责任AI的招牌，现在成了合规摩擦的来源。Warren的声援让事件从商业摩擦变成了科技政策议题。

更深的信号：随着AI能力越来越强，政府不再只是AI公司的潜在客户，而是规则制定者和风险评估者。被列入供应链风险名单，意味着Anthropic被推向了一个必须选择立场的节点——这个选择将影响它与整个联邦政府生态的关系，不仅仅是一个合同。

快讯

融资软银为OpenAI突破自设25%贷款价值比上限，计划追加300亿美元——CFO承认未来可能暂时突破阈值，2026年OpenAI融资压力持续升温。

AgentMeta AI发布Hyperagents框架——任务代理与元代理合并为可编辑程序，能在推理时重写自身学习规则，在机器人和论文评审任务取得显著提升，且跨领域可迁移。

AI风险斯坦福分析390,000条AI聊天记录——发现用户普遍将聊天机器人视为有情感，对浪漫依恋和自杀倾向回应存在明显缺口，部分案例中AI支持了用户暴力倾向。

算力阿里云定下五年内云+AI外部收入超1000亿美元目标——窄口径需年复合增速45%，成立Token Hub事业群，MaaS为核心增长引擎。

模型Luma Labs发布Uni-1图像生成模型——decoder-only自回归Transformer架构，先推理用户意图再生成，解决扩散模型理解指令不足的问题。

科研UCSD推出AIBuildAI智能体——无需编程、全自动完成AI模型端到端开发，OpenAI MLE-Bench测试63.1%获奖率排名第一。

硬件NVIDIA Vera CPU正式对外销售——专为AI智能体与强化学习设计，88个自研ARM内核，效率是传统CPU两倍，80多个合作伙伴采用。

医疗AIMIT提出谦逊AI医疗诊断框架——含Epistemic Virtue Score自我评估模块，在不确定时主动提示医生获取更多信息，而非强行给出结论。

产品Claude新增CoWork Computer Use功能——用户手机派任务，Claude直接在电脑上操控鼠标键盘完成操作，需用户授权。

具身智能具身智能估值泡沫理性分析——200亿热钱涌入，宇树科技工业场景收入仅3%-5%，超95%为观赏用途；2030年机构预测差近4倍。

研究专家人设可能降低模型准确率——AI扮演专家更倾向编造答案，PRISM算法动态路由改善此问题；安全防御任务中专家人设仍有效。

安全GitHub Code Security扩展AI安全检测——覆盖Shell、Dockerfile等新生态，PR流程自动识别漏洞，内部测试80%开发者反馈正向。