文本向量模型选择指南&评测
🚀太长不看版:
- Cohere 文本长度太短
- Jina 支持语言太少
- Openai 不错,没啥问题
- Google API 文档很繁琐
- 其他还好 BGE 开源!性能好!需要本地部署
🚀具体性能大家可以去看 Huggingface 的 Massive Text Embedding Benchmark (MTEB) Leaderboard 。 需要综合自己项目的文本语言情况,检索文本长度,经费预算
🚀from Best Embedding Model 🌟 — OpenAI / Cohere / Google / E5 / BGE BY Lars Wiik 文章中比较了各大平台及顶尖开源模型的表现,重点突出了它们在不断进化的 AI 领域中的相对优势。
以下是几个主要嵌入式模型的细节:
- OpenAI 最新的嵌入模型 text-embedding-3-large 支持多语言,并在 2024 年 1 月 25 日发布,支持 256、1024 和 3072 多种维度,默认返回 3072 维度的嵌入。
- Cohere 提供的最新多语言嵌入模型 embed-multilingual-v3.0,在 2023 年 11 月 2 日发布,返回 1024 维度的嵌入。
- 谷歌的最新嵌入模型 text-multilingual-embedding-preview-0409 在 2024 年 4 月 2 日发布预览版,是多语言的,并返回 768 维度的嵌入。
- 微软的 E5 是一个开源多语言嵌入模型,初版发布了三个嵌入模型,包括 small、base 和 large,而 "instruct" 版本则在 2024 年初发布。
- BGE-M3 是北京智源人工智能研究院创建的开源多语言嵌入模型,于 2024 年 1 月 30 日发布,支持 100 多种语言,返回 1024 维度的嵌入。
文章详细描述了使用余弦相似度度量来评估嵌入质量的过程。
较高的 Cumulative Match Characteristic(CMC)曲线表示性能更好,而较低的 Inverse Mean Average Precision(IMAP)率,也称为错误率,表明模型所犯错误更少。
评估结果强调了 OpenAI 在所有语言中的低平均错误率表现强劲。
Cohere 在某些语言中表现最佳,但在其他语言中表现不一。
OpenAI 展现了稳定性和强大、普适适用的嵌入式模型,而谷歌尽管嵌入维度较小,但整体性能也非常强健。 #大模型 #chatgpt #产品经理 #RAG #openai







