AGENT2026-05-14

Jina Embeddings v5-omni：首个文本+图像+音频+视频通用嵌入模型

通用嵌入模型来了

Jina AI 发布 jina-embeddings-v5-omni——首个支持文本、图像、音频、视频的通用嵌入模型。

两个尺寸

型号	参数量	维度	上下文长度
small	1.57B	1024-dim	32K
nano	0.95B	768-dim	8K

两者都支持 Matryoshka truncation 到 32 维——需要存储效率时可以大幅压缩向量尺寸。

向后兼容：零迁移成本

如果你已经在用 jina-embeddings-v5-text-small/nano，现有文本索引与 v5-omni 开箱即用兼容。无需重新索引文本，直接用 v5-omni 索引多模态内容，即可开始搜索图像、音频和视频。

这是产品设计上最聪明的决策：不是让用户重建一切，而是让多模态能力自然叠加到现有基础设施上。

意味着什么

一个向量空间统一处理四种模态
文本搜索基础设施直接扩展为跨模态搜索
小参数规模意味着可部署性高，边缘场景友好
Matryoshka 支持让存储成本灵活可控

模型地址：https://huggingface.co/jinaai/jina-embeddings-v5-omni