三合一的设计思路
Mistral Small 4 的核心卖点是整合:此前 Mistral 维护了三个专项模型——Magistral(推理)、Pixtral(多模态视觉)、Devstral(Agentic 编程)。Small 4 把这三种能力收进一个模型。
对应用开发者来说,意味着不再需要根据任务类型在模型间路由:同一个模型处理文本推理、图文理解和代码生成。
技术架构
Mistral Small 4 采用 Mixture of Experts(MoE)架构:
- 总参数:119B
- 专家数量:128 个,每次推理激活 4 个
- 活跃参数:每 token 约 6B(含 Embedding 层约 8B)
- 上下文窗口:256k tokens
- 原生多模态:同时处理文本和图片输入
模型支持 reasoning_effort 参数,允许在调用时指定推理深度——快速模式减少计算开销,深度模式启用更多推理链路。
性能基准
在延迟优化配置下,与上一代相比:
- 端到端完成时间减少 40%
- 每秒请求吞吐量提升 3x
学术基准方面,Small 4 在三项评测上与 GPT-OSS 120B 持平或超越,但输出 token 数更少。在 LiveCodeBench(代码生成评测)上明确超过 GPT-OSS 120B,同时减少 20% 的输出 token——直接降低推理成本。
开源与部署
Mistral Small 4 以 Apache 2.0 开源,这意味着可以商业使用、修改和分发:
- Mistral API / AI Studio:直接调用
- HuggingFace:模型权重下载
- NVIDIA NIMs:容器化推理部署
- NVIDIA build.nvidia.com:免费原型测试
最低部署配置:4× NVIDIA HGX H100,或 2× HGX H200,或 1× DGX B200。
定位
Mistral 将 Small 4 定位于三类场景:
- 代码自动化:利用 Devstral 的编程能力,适合 Agentic 编码任务
- 企业文档理解:多模态能力处理图文混合文档,支持客服系统
- 复杂推理:数学、逻辑分析任务
开源 + Apache 2.0 + 多模态 + 可配置推理深度,这个组合在当前开源模型生态里定位清晰:在不需要最大规模模型的场景下,提供接近闭源旗舰的综合能力。