2. DeepSeek把多模态推理从“说很多话”改成“先指再想”：90个视觉Token背后是方法论变化

2026年5月1日 · 754 字 · AI 趋势日报深度解读

多模态推理视觉基元效率提升

发生了什么：DeepSeek联合北大、清华提出视觉基元推理框架，相关报道见论文解读一、解读二与媒体报道。它不再让模型用大段语言描述图像中的关系，而是把边界框和坐标点当成最小思考单元，让模型先在图上“指”出对象，再进行计数、路径、空间和拓扑推理。据报道，这套方法在90个视觉token下就能达到接近GPT-5.4级别的效果。

为什么重要：多模态模型过去的一个根本问题，是它看似“看见了图”，实际上仍然主要靠语言在图像上做二次转述。这会导致指代混乱、空间关系错位，也就是论文里所说的“引用鸿沟”。DeepSeek这次真正有价值的地方，不只是分数更高，而是它给出了一条更像人类的推理路径：人类看复杂图片时，会一边指着某个物体、一边确认接下来思考的对象。把点和框显式引入推理链，相当于给模型加了一套视觉锚点系统。这个变化对GUI Agent、机器人、自动驾驶和工业检测都很关键，因为这些场景里最怕的不是模型不会聊天，而是它找错对象、走错路径、点错按钮。

具体细节：报道提到模型在计数、迷宫导航、路径追踪和复杂空间关系任务上表现突出，并通过压缩技术和五阶段后训练提高效率。最值得记住的是“90个视觉token”这个数量级：它意味着在很多需要结构感知的任务里，未来的竞争未必只是更大的上下文和更高的算力预算，而是谁能把感知表示设计得更贴近任务本身。这也和端侧AI与感算一体架构形成呼应——当AI从云端对话走向物理世界，模型必须学会更节省、更结构化地理解环境，而不是永远依赖海量token暴力推理。

传统多模态链路	视觉基元链路	差异
先把图像转成长文本描述	先输出点、框等锚点	减少指代漂移
依赖大量token解释位置关系	用坐标直接表达空间关系	压缩推理成本
更擅长泛化描述	更适合计数、路径、拓扑任务	更接近执行型场景