3. AI 不再只会聊天：Aletheia 解出 13 道数学题，o1 在急诊追平医生，内容生产成本压到每分钟 30 美元

2026年5月4日 · 1355 字 · AI 趋势日报深度解读

科研医疗内容工业

发生了什么：今天有三条能力验证尤其值得放在一起看。DeepMind 的 Aletheia解决了 13 个与埃尔德什有关的数学难题；OpenAI o1 在真实急诊病例研究中达到与医生相当的水平；中国 AI 微短剧制作成本被压到每分钟 30 美元，3 月抖音上传量已接近 5 万部。

为什么重要：如果说前两年行业主要证明“模型能回答问题”，那现在开始证明的是“模型能不能进入高门槛行业并改变单位成本”。数学和医疗代表高专业壁垒，微短剧代表高产能行业。三件事合在一起，说明 AI 的扩散路径已经很清楚：先在专业领域争取可信度，再在内容工业里争取规模化复制能力。尤其是微短剧，成本下降带来的不是单个作品更便宜，而是整条生产链被重排，演员、导演、后期和平台分发都会被重新定价。

13 题数学证明能力开始进入正式研究语境，但原创性仍受质疑。

医生同级o1 在结构化急诊任务中表现接近或超过医生，临床边界仍在真实场景。

30 美元/分钟内容生产门槛骤降，AI 已直接改写短剧行业的供给速度。

具体细节：Aletheia 的争议点也很关键，文章指出它完成的很多证明更像逻辑整理而非原创发现，这提醒我们科研 AI 还没有越过“辅助发现”到“独立创造”的最后门槛。医疗侧则相反，o1 在真实急诊病例上已经给出足够强的实证信号，只是非结构化情境下医生仍不可替代。内容侧的变化最激烈，DataEye 预测中国 AI 微短剧市场将超过 30 亿美元，而创作者已经在用 AI 快速替代传统拍摄流程。也就是说，AI 进入产业的速度并不平均：科研最慢，医疗最谨慎，内容工业最快。

快讯

OpenAI GPT-5.5被开发者称性能炸裂，但报道同时指出 OpenAI 面临亏损、治理和诉讼多重压力，产品领先不再自动等于商业安全。

DeepSeek 正接触融资，同时 V4 团队离职率仅 4%，在大模型人才频繁流动的环境里，稳定团队本身已成竞争力。

Epoch AI 与 Ipsos 调查显示，美国家庭年收入 10 万美元以上用户占 Claude 周活的 80%，AI 工具市场正在明显分化为大众入口与高价值助手。

安全工程师通过篡改维基信息欺骗主流 AI 搜索系统，再次暴露联网检索模型在事实核验和来源可信度判断上的短板。

英国 NHS 计划关闭几乎所有公开代码仓库，理由是担忧 AI 带来的安全风险，说明开源策略正被新的模型威胁重新审视。

黄仁勋公开批评 AI 末日论和大规模替代论，认为夸大风险正在被当成商业叙事工具，行业讨论正在从情绪化预测转向利益与证据之争。

DeepSeek-TUI作为终端编程 Agent 开源，支持 100 万 token 上下文、文件读写、Git 操作和多模式执行，显示开发者生态正快速补齐低成本 Agent 工具链。

SignThought 手语翻译框架把手语翻译改写为跨模态推理问题，通过 latent thoughts 与 plan-then-ground 解码，在学术数据集上取得明显提升。

企业 AI 应用现状分析指出，很多公司推不动 AI 的根本原因不是工具不够强，而是业务目标和流程本身不清晰。

以上内容仅基于 2026-05-03 20:00 至 2026-05-04 20:00（北京时间）窗口内提供的文章整理。