Embedding模型在RAG技术中非常关键,因为它们直接影响到信息检索的效果和生成文本的质量。
https://huggingface.co/spaces/mteb/leaderboard
1 选择标准
选择的标准有很多,比如模型的性能、处理速度,vector维度大小,我主要从下面两个方面进行的比较:
Huggingface趋势与下载量
实验对比结果
PEG
作者:腾讯
模型地址: https://huggingface.co/TownsWu/PEG
论文: https://arxiv.org/pdf/2311.11691.pdf重点优化检索能力。
GTE 系列
作者:阿里巴巴
模型地址: https://huggingface.co/thenlper/gte-large-zh
论文: https://arxiv.org/abs/2308.03281picolo 系列
作者:商汤
地址: https://huggingface.co/sensenova/piccolo-large-zh有一些微调的小tips
stella 系列
地址:https://huggingface.co/infgrad/stella-large-zh-v2
博客文章: https://zhuanlan.zhihu.com/p/655322183基于piccolo 模型fine-tuning,支持1024 序列长度。博客文章记录了一些训练思路。
BGE 系列
开放信息最多的模型,也提供了fine-tuning 示例代码。同时也是 C-MTEB 榜单的维护者。
m3e 系列
作者:MokaAI
地址:https://huggingface.co/moka-ai/m3e-large
Github:https://github.com/wangyuxinwhy/uniem研究的比较早,算是中文通用 Embedding 模型、数据集以及评测比较早的开拓者。
multilingual-e5-large
地址:https://huggingface.co/intfloat/multilingual-e5-large
论文:https://arxiv.org/pdf/2212.03533.pdf多语言支持。
tao-8k
地址: https://huggingface.co/amu/tao-8k
支持8192 序列长度,但是信息很少。
2 下载量
数据采集时间:2024.04.18
按趋势排行(前5名)
Model | 下载量 | 说明 |
---|---|---|
462K | 中英双语跨语言能力强。 推荐最佳实践:embedding召回top50-100片段,reranker对这50-100片段精排,最后取top5-10片段。 | |
90k | 英语 | |
51K | 中文,上升迅速, C-MTEB排行榜第一(2024.04.18)(https://huggingface.co/spaces/mteb/leaderboard) | |
934K | 英语 | |
5K | 中英 |
按下载量排行(最后多列出了几个中文版模型)
Model | 下载量 | 说明 |
---|---|---|
1964K | 多语言,bge还有英文三个版本,下载均超过1M | |
1882K | 中文 | |
985K | 英语 | |
934K | 英语 | |
495K | 英语 | |
816K | 多语言 | |
714K | 英语 | |
462K | 中英双语跨语言能力强。 | |
308K | 英文 | |
280K | 英文 | |
184K | 英语 | |
147K | 需要注册 | |
112K | 英语,基于 BAAI/bge-large-en-v1.5 微调 | |
108K | 中英,群友推荐 | |
100K | 英文 | |
91K | 英文, 基于Mistral训练 | |
51K | 中文模型 (上升非常迅速) | |
12K | 中文, 入榜原因: GTE英文版下载量超大,值得关注 | |
5K | 中文, 入榜原因:英文版下载量大,值得关注 |
大系列有:bge, jina, gte, bce, e5, m3e
中文模型:bge-large-zh-v1.5, multilingual-e5-large, bce-embedding-base_v1,m3e-base,acge_text_embedding
2 结果对比(主要参考QAnything)
https://huggingface.co/spaces/mteb/leaderboard_legacy
既包含开源,也包含API,鱼目混杂,需要进一步验证和确认。
QAnything文档结果
文档链接:https://qanything.ai/docs/architecture
中英双语评估(优先Retrieval结果):
Model | Retrieval | Avg Score | |
---|---|---|---|
bce-embedding-base_v1 | 57.60 | 59.43 | zh-en, en-zh双语任务表现好 |
multilingual-e5-large | 56.76 | 60.50 | |
bge-large-zh-v1.5 | 47.54 | 54.23 | |
m3e-base | 46.29 | 53.54 |
评测Metric:
https://arxiv.org/pdf/2210.07316.pdf
中文上Embedding模型的表现
Language: zh, Task Type: Retrieval
Model | Retrieval | ReRanking | |
---|---|---|---|
gte-large-zh | 72.48 | 67.40 | 中文上表现出色 |
bge-large-zh-v1.5 | 70.45 | 65.84 | |
multilingual-e5-large | 63.65 | 57.47 | 所有任务平均上表现也很好 |
m3e-base | 56.91 | 59.34 | |
bce-embedding-base_v1 | 53.62 | 61.67 | 单纯中文不是最好的 |
3 Embedding 模型推荐(中文,性能优先)
Model | 下载量 | URL |
---|---|---|
bce-embedding-base_v1 | 462K | |
multilingual-e5-large | 810K | |
gte-large-zh | 12K | |
acge_text_embedding | 51K |
参考资料:
基于开源embedding模型的中文向量效果测试