微软Bing发布开源Embedding模型系列Harrier,27B版本在多语言MTEB v2基准上以74.3分登顶,成为当前最强的开源Embedding方案。
三个规格,全部开源
| 模型 | MTEB v2分数 | 相对提升 |
|---|---|---|
| Harrier-OSS-v1-27B | 74.3 | +2.0% vs之前SOTA |
| Harrier-OSS-v1-0.6b | 69.0 | +4.7% vs Qwen3-Embedding-0.6B |
| Harrier-OSS-v1-270m | 66.5 | +5.3% vs gemma-270m |
更值得注意的是,即便是270M参数的最小版本,也已经超越了所有闭源方案:
| 模型 | MTEB多语言均分 |
|---|---|
| OpenAI text-embedding-3-large | 58.92 |
| Amazon titan-embed-text-v2 | 60.37 |
| Gemini Embedding 2 (多模态) | 69.9 |
| Harrier-OSS-v1-270m | 66.55 |
技术细节
数据规模:
- 超过20亿条弱监督对比预训练数据
- 超过1000万条高质量精调数据
- 全程使用GPT-5生成合成数据
- 辅以大规模数据过滤和LLM重写
训练方法:先用大模型训练出27B旗舰版,再用知识蒸馏压缩出0.6B和270M两个小模型。
核心能力:
- 支持100+语言
- 32k上下文窗口
- 固定维度向量输出,无缝对接向量数据库
对比闭源的意义
Embedding是RAG系统的核心——检索质量直接决定最终回答质量。Harrier的开源意味着:
- 任何团队都可以在本地部署,无需付费API
- 270M小模型足够在边缘设备运行
- 多语言支持对出海产品是直接利好
下一步:Agent时代的Groundining
微软在文中点出了更宏大的目标:Harrier只是"Agent时代新一代Groundining系统"的组成部分。同一技术将登陆Bing搜索本身,提升语义理解、上下文选择和检索质量。
Embedding模型开源竞争加剧对整个Agent生态是好消息。OpenAI和Amazon的闭源方案在MTEB多语言基准上被270M参数的开源小模型超越,这个信号很明确:在非推理类任务上,小模型+高质量数据+好的训练方法可以打败大模型+封闭数据。Bing能把技术用到搜索体验上,说明微软把Embedding当作搜索质量的核心基础设施在投入。