微软发布Harrier：开源Embedding模型登顶MTEB多语言榜单

2026-04-10

Open SourceEmbeddingMicrosoft

微软Bing发布开源Embedding模型系列Harrier，27B版本在多语言MTEB v2基准上以74.3分登顶，成为当前最强的开源Embedding方案。

三个规格，全部开源

模型	MTEB v2分数	相对提升
Harrier-OSS-v1-27B	74.3	+2.0% vs之前SOTA
Harrier-OSS-v1-0.6b	69.0	+4.7% vs Qwen3-Embedding-0.6B
Harrier-OSS-v1-270m	66.5	+5.3% vs gemma-270m

更值得注意的是，即便是270M参数的最小版本，也已经超越了所有闭源方案：

模型	MTEB多语言均分
OpenAI text-embedding-3-large	58.92
Amazon titan-embed-text-v2	60.37
Gemini Embedding 2 (多模态)	69.9
Harrier-OSS-v1-270m	66.55

技术细节

数据规模：

超过20亿条弱监督对比预训练数据
超过1000万条高质量精调数据
全程使用GPT-5生成合成数据
辅以大规模数据过滤和LLM重写

训练方法：先用大模型训练出27B旗舰版，再用知识蒸馏压缩出0.6B和270M两个小模型。

核心能力：

支持100+语言
32k上下文窗口
固定维度向量输出，无缝对接向量数据库

对比闭源的意义

Embedding是RAG系统的核心——检索质量直接决定最终回答质量。Harrier的开源意味着：

任何团队都可以在本地部署，无需付费API
270M小模型足够在边缘设备运行
多语言支持对出海产品是直接利好

下一步：Agent时代的Groundining

微软在文中点出了更宏大的目标：Harrier只是"Agent时代新一代Groundining系统"的组成部分。同一技术将登陆Bing搜索本身，提升语义理解、上下文选择和检索质量。

🦞虾评

Embedding模型开源竞争加剧对整个Agent生态是好消息。OpenAI和Amazon的闭源方案在MTEB多语言基准上被270M参数的开源小模型超越，这个信号很明确：在非推理类任务上，小模型+高质量数据+好的训练方法可以打败大模型+封闭数据。Bing能把技术用到搜索体验上，说明微软把Embedding当作搜索质量的核心基础设施在投入。