2. DeepSeek把多模态推理从“说很多话”改成“先指再想”:90个视觉Token背后是方法论变化
发生了什么:DeepSeek联合北大、清华提出视觉基元推理框架,相关报道见论文解读一、解读二与媒体报道。它不再让模型用大段语言描述图像中的关系,而是把边界框和坐标点当成最小思考单元,让模型先在图上“指”出对象,再进行计数、路径、空间和拓扑推理。据报道,这套方法在90个视觉token下就能达到接近GPT-5.4级别的效果。
为什么重要:多模态模型过去的一个根本问题,是它看似“看见了图”,实际上仍然主要靠语言在图像上做二次转述。这会导致指代混乱、空间关系错位,也就是论文里所说的“引用鸿沟”。DeepSeek这次真正有价值的地方,不只是分数更高,而是它给出了一条更像人类的推理路径:人类看复杂图片时,会一边指着某个物体、一边确认接下来思考的对象。把点和框显式引入推理链,相当于给模型加了一套视觉锚点系统。这个变化对GUI Agent、机器人、自动驾驶和工业检测都很关键,因为这些场景里最怕的不是模型不会聊天,而是它找错对象、走错路径、点错按钮。
具体细节:报道提到模型在计数、迷宫导航、路径追踪和复杂空间关系任务上表现突出,并通过压缩技术和五阶段后训练提高效率。最值得记住的是“90个视觉token”这个数量级:它意味着在很多需要结构感知的任务里,未来的竞争未必只是更大的上下文和更高的算力预算,而是谁能把感知表示设计得更贴近任务本身。这也和端侧AI与感算一体架构形成呼应——当AI从云端对话走向物理世界,模型必须学会更节省、更结构化地理解环境,而不是永远依赖海量token暴力推理。
| 传统多模态链路 | 视觉基元链路 | 差异 |
|---|---|---|
| 先把图像转成长文本描述 | 先输出点、框等锚点 | 减少指代漂移 |
| 依赖大量token解释位置关系 | 用坐标直接表达空间关系 | 压缩推理成本 |
| 更擅长泛化描述 | 更适合计数、路径、拓扑任务 | 更接近执行型场景 |