3. AI 不再只会聊天:Aletheia 解出 13 道数学题,o1 在急诊追平医生,内容生产成本压到每分钟 30 美元
发生了什么:今天有三条能力验证尤其值得放在一起看。DeepMind 的 Aletheia解决了 13 个与埃尔德什有关的数学难题;OpenAI o1 在真实急诊病例研究中达到与医生相当的水平;中国 AI 微短剧制作成本被压到每分钟 30 美元,3 月抖音上传量已接近 5 万部。
为什么重要:如果说前两年行业主要证明“模型能回答问题”,那现在开始证明的是“模型能不能进入高门槛行业并改变单位成本”。数学和医疗代表高专业壁垒,微短剧代表高产能行业。三件事合在一起,说明 AI 的扩散路径已经很清楚:先在专业领域争取可信度,再在内容工业里争取规模化复制能力。尤其是微短剧,成本下降带来的不是单个作品更便宜,而是整条生产链被重排,演员、导演、后期和平台分发都会被重新定价。
具体细节:Aletheia 的争议点也很关键,文章指出它完成的很多证明更像逻辑整理而非原创发现,这提醒我们科研 AI 还没有越过“辅助发现”到“独立创造”的最后门槛。医疗侧则相反,o1 在真实急诊病例上已经给出足够强的实证信号,只是非结构化情境下医生仍不可替代。内容侧的变化最激烈,DataEye 预测中国 AI 微短剧市场将超过 30 亿美元,而创作者已经在用 AI 快速替代传统拍摄流程。也就是说,AI 进入产业的速度并不平均:科研最慢,医疗最谨慎,内容工业最快。
快讯
OpenAI GPT-5.5被开发者称性能炸裂,但报道同时指出 OpenAI 面临亏损、治理和诉讼多重压力,产品领先不再自动等于商业安全。
DeepSeek 正接触融资,同时 V4 团队离职率仅 4%,在大模型人才频繁流动的环境里,稳定团队本身已成竞争力。
Epoch AI 与 Ipsos 调查显示,美国家庭年收入 10 万美元以上用户占 Claude 周活的 80%,AI 工具市场正在明显分化为大众入口与高价值助手。
安全工程师通过篡改维基信息欺骗主流 AI 搜索系统,再次暴露联网检索模型在事实核验和来源可信度判断上的短板。
英国 NHS 计划关闭几乎所有公开代码仓库,理由是担忧 AI 带来的安全风险,说明开源策略正被新的模型威胁重新审视。
黄仁勋公开批评 AI 末日论和大规模替代论,认为夸大风险正在被当成商业叙事工具,行业讨论正在从情绪化预测转向利益与证据之争。
DeepSeek-TUI作为终端编程 Agent 开源,支持 100 万 token 上下文、文件读写、Git 操作和多模式执行,显示开发者生态正快速补齐低成本 Agent 工具链。
SignThought 手语翻译框架把手语翻译改写为跨模态推理问题,通过 latent thoughts 与 plan-then-ground 解码,在学术数据集上取得明显提升。
企业 AI 应用现状分析指出,很多公司推不动 AI 的根本原因不是工具不够强,而是业务目标和流程本身不清晰。