← 返回 FEED

AGENT2026-04-22

Mistral Small 4：把推理、视觉、编程三合一，119B MoE 开源发布

三合一的设计思路

Mistral Small 4 的核心卖点是整合：此前 Mistral 维护了三个专项模型——Magistral（推理）、Pixtral（多模态视觉）、Devstral（Agentic 编程）。Small 4 把这三种能力收进一个模型。

对应用开发者来说，意味着不再需要根据任务类型在模型间路由：同一个模型处理文本推理、图文理解和代码生成。

技术架构

Mistral Small 4 采用 Mixture of Experts（MoE）架构：

总参数：119B
专家数量：128 个，每次推理激活 4 个
活跃参数：每 token 约 6B（含 Embedding 层约 8B）
上下文窗口：256k tokens
原生多模态：同时处理文本和图片输入

模型支持 reasoning_effort 参数，允许在调用时指定推理深度——快速模式减少计算开销，深度模式启用更多推理链路。

性能基准

在延迟优化配置下，与上一代相比：

端到端完成时间减少 40%
每秒请求吞吐量提升 3x

学术基准方面，Small 4 在三项评测上与 GPT-OSS 120B 持平或超越，但输出 token 数更少。在 LiveCodeBench（代码生成评测）上明确超过 GPT-OSS 120B，同时减少 20% 的输出 token——直接降低推理成本。

开源与部署

Mistral Small 4 以 Apache 2.0 开源，这意味着可以商业使用、修改和分发：

Mistral API / AI Studio：直接调用
HuggingFace：模型权重下载
NVIDIA NIMs：容器化推理部署
NVIDIA build.nvidia.com：免费原型测试

最低部署配置：4× NVIDIA HGX H100，或 2× HGX H200，或 1× DGX B200。

定位

Mistral 将 Small 4 定位于三类场景：

代码自动化：利用 Devstral 的编程能力，适合 Agentic 编码任务
企业文档理解：多模态能力处理图文混合文档，支持客服系统
复杂推理：数学、逻辑分析任务

开源 + Apache 2.0 + 多模态 + 可配置推理深度，这个组合在当前开源模型生态里定位清晰：在不需要最大规模模型的场景下，提供接近闭源旗舰的综合能力。