如何选择RAG的Embedding模型?

Embedding模型在RAG技术中非常关键,因为它们直接影响到信息检索的效果和生成文本的质量。

https://huggingface.co/spaces/mteb/leaderboard

1 选择标准

选择的标准有很多,比如模型的性能、处理速度,vector维度大小,我主要从下面两个方面进行的比较:

2 下载量

数据采集时间:2024.04.18

按趋势排行(前5名)

Model

下载量

说明

https://huggingface.co/maidalun1020/bce-embedding-base_v1

462K

中英双语跨语言能力强。 推荐最佳实践:embedding召回top50-100片段,reranker对这50-100片段精排,最后取top5-10片段。

https://huggingface.co/Salesforce/SFR-Embedding-Mistral

90k

英语

https://huggingface.co/aspire/acge_text_embedding

51K

中文,上升迅速, C-MTEB排行榜第一(2024.04.18)(https://huggingface.co/spaces/mteb/leaderboard)

https://huggingface.co/jinaai/jina-embeddings-v2-base-en

934K

英语

https://huggingface.co/jinaai/jina-embeddings-v2-base-zh

5K

中英

按下载量排行(最后多列出了几个中文版模型)

Model

下载量

说明

https://huggingface.co/BAAI/bge-m3

1964K

多语言,bge还有英文三个版本,下载均超过1M

https://huggingface.co/BAAI/bge-large-zh-v1.5

1882K

中文

https://huggingface.co/thenlper/gte-base

985K

英语

https://huggingface.co/jinaai/jina-embeddings-v2-base-en

934K

英语

https://huggingface.co/jinaai/jina-embeddings-v2-small-en

495K

英语

https://huggingface.co/intfloat/multilingual-e5-large

816K

多语言

https://huggingface.co/intfloat/e5-large-v2

714K

英语

https://huggingface.co/maidalun1020/bce-embedding-base_v1

462K

中英双语跨语言能力强。

https://huggingface.co/thenlper/gte-large

308K

英文

https://huggingface.co/thenlper/gte-small

280K

英文

https://huggingface.co/NeuML/pubmedbert-base-embeddings

184K

英语

https://huggingface.co/pyannote/embedding

147K

需要注册

https://huggingface.co/avsolatorio/GIST-large-Embedding-v0

112K

英语,基于 BAAI/bge-large-en-v1.5 微调

https://huggingface.co/moka-ai/m3e-base

108K

中英,群友推荐

https://huggingface.co/avsolatorio/GIST-Embedding-v0

100K

英文

https://huggingface.co/Salesforce/SFR-Embedding-Mistral

91K

英文, 基于Mistral训练

https://huggingface.co/aspire/acge_text_embedding

51K

中文模型 (上升非常迅速)

https://huggingface.co/thenlper/gte-large-zh

12K

中文, 入榜原因: GTE英文版下载量超大,值得关注

https://huggingface.co/jinaai/jina-embeddings-v2-base-zh

5K

中文, 入榜原因:英文版下载量大,值得关注

大系列有:bge, jina, gte, bce, e5, m3e
中文模型:bge-large-zh-v1.5, multilingual-e5-large, bce-embedding-base_v1,m3e-base,acge_text_embedding

2 结果对比(主要参考QAnything)

中英双语评估(优先Retrieval结果):

Model

Retrieval

Avg Score

bce-embedding-base_v1

57.60

59.43

zh-en, en-zh双语任务表现好

multilingual-e5-large

56.76

60.50

bge-large-zh-v1.5

47.54

54.23

m3e-base

46.29

53.54

评测Metric:
https://arxiv.org/pdf/2210.07316.pdf

中文上Embedding模型的表现
Language: zh, Task Type: Retrieval

Model

Retrieval

ReRanking

gte-large-zh

72.48

67.40

中文上表现出色

bge-large-zh-v1.5

70.45

65.84

multilingual-e5-large

63.65

57.47

所有任务平均上表现也很好

m3e-base

56.91

59.34

bce-embedding-base_v1

53.62

61.67

单纯中文不是最好的

3 Embedding 模型推荐(中文,性能优先)

Model

下载量

URL

bce-embedding-base_v1

462K

https://huggingface.co/maidalun1020/bce-embedding-base_v1

multilingual-e5-large

810K

https://huggingface.co/intfloat/multilingual-e5-large

gte-large-zh

12K

https://huggingface.co/thenlper/gte-large-zh

acge_text_embedding

51K

https://huggingface.co/aspire/acge_text_embedding

参考资料:

基于开源embedding模型的中文向量效果测试

https://github.com/JovenChu/embedding_model_test

  1. https://www.llamaindex.ai/blog/boosting-rag-picking-the-best-embedding-reranker-models-42d079022e83

  2. https://github.com/FlagOpen/FlagEmbedding/tree/master

选择支持方式
超值优惠
年费会员
原价: ¥365
限时: ¥199
全站资源无限下载
全年免费咨询
专属会员社群
轻量体验
月度会员
原价: ¥49
特惠: ¥29
更新资源下载
专属会员社群
不含咨询
交个朋友
体验会员
原价: ¥29
特惠: ¥9.9
单次下载或咨询
专属会员社群
微信扫码支持
支付宝扫码支持
客服微信
微信:mingzhang567