Thinking with Visual Primitives (转)

View mindmap of this page Edit in Notion By PaperAgent

About 2389 words Posted May 1, 2026

原文https://zhuanlan.zhihu.com/p/2033494636023559146，侵删。

作者：PaperAgent

链接：https://zhuanlan.zhihu.com/p/2033494636023559146

来源：知乎

著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

上周DeepSeek V4发布了，但遗憾的还是没有多模态，今天（老规矩，节假日发布）DeepSeek把这块补上了，开源了最新的多模态技术&Paper：Thinking with Visual Primitives（以视觉原语思考）

DeepSeek&北京大学&清华大学提出”视觉基元推理”框架，将边界框与坐标点提升为”最小思考单元”，解决MLLM在复杂空间推理中的Reference Gap（指代鸿沟）问题。基于DeepSeek-V4-Flash构建的模型，在仅使用约90个KV Cache视觉token的情况下，性能比肩GPT-5.4、Claude-Sonnet-4.6与Gemini-3-Flash。Skills驱动推理新范式，清华&北大：Token立省59%

一、从感知鸿沟到指代鸿沟：问题重新定义

当前多模态大语言模型（MLLM）的Chain-of-Thought（CoT）推理几乎完全发生在语言空间。即便前沿模型通过高分辨率裁剪、动态分块等策略解决了”看不清”的Perception Gap（感知鸿沟），它们在面对密集计数、拓扑导航、多步空间推演时，仍然频繁出现逻辑崩塌（logical collapse）。

DeepSeek团队指出，这背后是一个更本质的瓶颈——Reference Gap（指代鸿沟）：

自然语言天生是模糊、连续的，而视觉空间是精确、离散的。当模型用语言描述”左边第二个红色的物体”时，它实际上已经丢失了精确的空间锚点，导致推理链条与图像实体脱节，最终引发级联幻觉。

人类是如何解决这个问题的？我们在数一堆密集物体或走迷宫时，会本能地用手指指向目标，将抽象的语义概念锚定到具体的物理坐标上，大幅降低工作记忆负担。

受此启发，论文提出Thinking with Visual Primitives（基于视觉基元的思考）：将边界框（bounding boxes）和点（points）提升为与语言token同级的”最小思考单元”，直接交错插入模型的推理轨迹中。模型不再是”说完再指”，而是边指边想（point while it reasons）。

Figure 1对比了各模型在800×800分辨率下的KV Cache Entries与7项基准平均分

Figure 1揭示了这一范式的惊人效率：对于800×800的输入，该模型在KV Cache中仅保留约90个视觉条目（总token约361），远低于GPT-5.4（~740）、Claude-Sonnet-4.6（~870）和Gemini-3-Flash（~1100），同时在计数与空间推理任务上取得77.2%的平均分，超越所有对比模型。

二、架构与训练 pipeline：效率与专项能力的平衡

2.1 架构设计

模型采用类LLaVA的标准架构，以DeepSeek-V4-Flash（284B总参数，13B激活参数的MoE模型）为语言骨干，视觉编码器采用自研的DeepSeek-ViT，支持任意分辨率输入。

极致压缩是架构的核心：

14×14 Patch Embedding：将图像切分为基础patch；
3×3空间压缩：每9个相邻patch在通道维度压缩为1个token；
*Compressed Sparse Attention (CSA)**：在LLM的KV Cache层进一步压缩视觉token。

以756×756图像为例：原始571,536像素 → ViT处理为2,916个patch token → 3×3压缩后324个token送入LLM → CSA机制最终仅保留81个视觉KV条目。从原始像素到KV Cache，整体压缩比高达7,056:1。

2.2 五阶段后训练流程

论文设计了一套”先训专家，再合并”的范式：

Pretraining：在数万亿多模态token上预训练，赋予模型输出视觉基元的基础能力；
Specialized SFT：分别针对Box（FTwG）和Point（FTwP）构建冷启动数据，独立微调，避免模态冲突；
Specialized RL：对两个专家模型分别应用GRPO强化学习，使用格式、质量、准确率三重Reward Model；
Unified RFT：用两位专家模型生成拒绝采样数据，统一训练一个融合模型；
On-Policy Distillation：通过反向KL散度，将专家模型的输出分布蒸馏到统一模型，弥合性能差距。

三、冷启动数据构造：四大推理场景的精细化设计

为了让模型学会”用基元思考”，团队没有依赖简单的指令微调，而是为四类任务构建了带显式视觉锚定的思维链冷启动数据。

3.1 计数（Counting）

MLLM在密集场景中计数失败，本质是无法建立”语言数字↔视觉实体”的一一对应。

包含足球队照片与熊群照片的两个完整推理案例

粗粒度计数：模型先进行意图分析，再批量 grounding（同时框出所有候选对象），最后统计求和。Figure 3展示了对团队照片的人数统计，模型一次性框出25个人，再分排验证。
细粒度计数：基于GQA场景图构造属性约束问题（如”地面上的熊有几只”），模型需逐一枚举验证，排除不符合属性的负样本。

3.2 空间推理与通用VQA（Spatial Reasoning & General VQA）

利用GQA和CLEVR构造数据。在CLEVR合成场景中，模型需要执行多跳逻辑推理（如”与灰色金属球同尺寸的紫色橡胶物体是否存在”）。每个推理步骤都必须通过<|ref|>...<|/ref|><|box|>...<|/box|>将提及的物体锚定到图像坐标，避免语义漂移。

展示CLEVR场景中多属性验证的完整思维链

这是检验拓扑推理能力的极端场景。纯语言CoT难以描述不规则路径的连通性。

团队使用DFS、Prim、Kruskal算法生成矩形、圆形、六边形三种迷宫拓扑，并构造不可解迷宫（在路径中段故意设墙）。模型的思维链以<|point|>[[x,y]]<|/point|>记录每一步探索坐标，形成类似人类”试错-回溯”的DFS轨迹。

展示六边形迷宫中从起点到终点的完整探索与回溯过程

3.4 路径追踪（Path Tracing）

在缠绕的贝塞尔曲线中，模型需要追踪指定线条找到终点。难点在于交叉点消歧：当两条线相交时，模型必须依据局部几何连续性判断走向，而非依赖颜色捷径。思维链以自适应密度的坐标序列记录路径——直线段稀疏采样，弯曲/交叉处密集采样。

展示从皇冠图标出发追踪洋红色曲线至终点的过程

四、Reward Model设计：让强化学习”看懂”视觉推理

在Specialized RL阶段，论文为不同任务设计了精细的Accuracy RM：

任务	Reward Model核心逻辑
计数	基于相对误差的指数衰减奖励：$R = \alpha \cdot \exp(-\beta \cdot \frac{
空间推理/VQA	LLM-based GRM，分别对思维链和最终回答评分后取平均
迷宫导航	四维加权：因果探索进度（截断于首次撞墙）、探索完整度（不可解迷宫）、撞墙惩罚、最终路径有效性
路径追踪	双向轨迹对齐（预测点→真值线 / 真值点→预测线）、端点精度、轨迹连续性惩罚（禁止跳点）

Table 1的结果极具说服力：

计数：Pixmo-Count达到89.2%，超越所有对手；CountQA上RA@10为74.1%，仅次于Gemini-3-Flash；
空间推理：DS_Spatial_Reasoning达到98.7%，显著领先Claude的97.2%和Qwen3-VL的96.8%；
拓扑推理：这是所有前沿模型的盲区。DS_Maze_Navigation 66.9%（次高仅50.6%），DS_Path_Tracing 56.7%（次高仅46.5%），形成断层式领先。

五、定性分析：视觉基元如何重塑推理体验

论文通过大量案例展示，视觉基元不仅是内部推理工具，更外化为可解释的”注意力轨迹”。

5.1 边界框作为基元

模型展现出强大的涌现协同能力：

世界知识融合：看到金门大桥照片，模型框出大桥主体，关联到旧金山，进而回答”附近有NBA球队吗”（金州勇士）；

反事实推理：在”天平哪边更重”问题中，模型框出左右物体及托盘，通过视觉证据（倾斜角度）推翻外观直觉；

可操作建议：在”如何做拿铁”问题中，模型框出咖啡机、蒸汽棒、奶壶、咖啡豆、杯子，给出带空间坐标的操作步骤。

5.2 点作为基元

在迷宫和路径追踪中，模型输出的点序列构成了可视化的推理路径。人类可以沿着这些坐标还原模型的”心路历程”：何时尝试分支、何时发现死胡同、何时回溯。这种可解释性是纯语言CoT无法提供的。

圆形迷宫导航与多曲线追踪

https://github.com/deepseek-ai/Thinking-with-Visual-Primitives/blob/main/Thinking_with_Visual_Primitives.pdf

Study training

This post is licensed under CC BY 4.0 by the author.