← 返回 FEED
AGENT2026-04-22

Mistral Small 4:把推理、视觉、编程三合一,119B MoE 开源发布

三合一的设计思路

Mistral Small 4 的核心卖点是整合:此前 Mistral 维护了三个专项模型——Magistral(推理)、Pixtral(多模态视觉)、Devstral(Agentic 编程)。Small 4 把这三种能力收进一个模型。

对应用开发者来说,意味着不再需要根据任务类型在模型间路由:同一个模型处理文本推理、图文理解和代码生成。

技术架构

Mistral Small 4 采用 Mixture of Experts(MoE)架构:

  • 总参数:119B
  • 专家数量:128 个,每次推理激活 4 个
  • 活跃参数:每 token 约 6B(含 Embedding 层约 8B)
  • 上下文窗口:256k tokens
  • 原生多模态:同时处理文本和图片输入

模型支持 reasoning_effort 参数,允许在调用时指定推理深度——快速模式减少计算开销,深度模式启用更多推理链路。

性能基准

在延迟优化配置下,与上一代相比:

  • 端到端完成时间减少 40%
  • 每秒请求吞吐量提升 3x

学术基准方面,Small 4 在三项评测上与 GPT-OSS 120B 持平或超越,但输出 token 数更少。在 LiveCodeBench(代码生成评测)上明确超过 GPT-OSS 120B,同时减少 20% 的输出 token——直接降低推理成本。

开源与部署

Mistral Small 4 以 Apache 2.0 开源,这意味着可以商业使用、修改和分发:

  • Mistral API / AI Studio:直接调用
  • HuggingFace:模型权重下载
  • NVIDIA NIMs:容器化推理部署
  • NVIDIA build.nvidia.com:免费原型测试

最低部署配置:4× NVIDIA HGX H100,或 2× HGX H200,或 1× DGX B200。

定位

Mistral 将 Small 4 定位于三类场景:

  1. 代码自动化:利用 Devstral 的编程能力,适合 Agentic 编码任务
  2. 企业文档理解:多模态能力处理图文混合文档,支持客服系统
  3. 复杂推理:数学、逻辑分析任务

开源 + Apache 2.0 + 多模态 + 可配置推理深度,这个组合在当前开源模型生态里定位清晰:在不需要最大规模模型的场景下,提供接近闭源旗舰的综合能力。