DeepSeek“开眼”背后的技术，公开了！-华为JDC

智东西4月30日报道，今天，DeepSeek发布多模态技术报告《用视觉原语思考（Thinking with Visaul Primitives）》，详细阐释了昨日灰度上线的DeepSeek识图模式背后的技术细节（DeepSeek终于能看图了！我第一时间用它算命）。DeepSeek识图模式所使用的是一个284B参数、13B激活多模态推理模型，其正式名称尚未对外发布，基座模型是DeepSeek-V4-Flash。DeepSeek称，这一模型的权重将整合进DeepSeek的基础模型，并在未来发布。当前，传统的思维链仍然停留在语言领域，但视觉推理所需要的信息更多。DeepSeek的新一代多模态推理模型的核心升级就在于，它把纯粹的语言推理链条，升级成了一种“语言逻辑+空间坐标”交织的双轨思维。当模型对着一张图进行推理时，它是会像人一样，直接输出一个具体的框或者点，在图中精准地“指”出它当下正在想的那个东西。DeepSeek多模态团队负责人陈小康分享了一张动图，形象地阐释了这一运作机制。图中，DeepSeek多模态模型可以在思维链中使用框进行定位，并在后续的推理步骤中持续引用这些被框定的视觉锚点，基于空间坐标进行下一步判断，极大提升了视觉推理的准确性。