全面且权威的大模型编程能力对比

结论：

无脑使用阿里云通义零码

https://m.mingzhang.cc/cms/soft/j3zl

代码评测基准包括2个：

Human Eval - HumanEval是一个用于评估代码生成模型性能的数据集，由OpenAI在2021年推出。这个数据集包含164个手工编写的编程问题，每个问题都包括一个函数签名、文档字符串（docstring）、函数体以及几个单元测试。这些问题涵盖了语言理解、推理、算法和简单数学等方面。这些问题的难度也各不相同，有些甚至与简单的软件面试问题相当。这个数据集的一个重要特点是，它不仅仅依赖于代码的语法正确性，还依赖于功能正确性。也就是说，生成的代码需要通过所有相关的单元测试才能被认为是正确的。这种方法更接近于实际编程任务，因为在实际编程中，代码不仅需要语法正确，还需要能够正确执行预定任务。结果通过pass@k表示，其中k表示模型一次性生成多少种不同的答案中，至少包含1个正确的结果。例如Pass@1就是只生成一个答案，准确的比例。如果是Pass@10表示一次性生成10个答案其中至少有一个准确的比例。目前，收集的包含Pass@1、Pass@10和Pass@100

MBPP - MBPP（Mostly Basic Programming Problems）是一个数据集，主要包含了974个短小的Python函数问题，由谷歌在2021年推出，这些问题主要是为初级程序员设计的。数据集还包含了这些程序的文本描述和用于检查功能正确性的测试用例。结果通过pass@k表示，其中k表示模型一次性生成多少种不同的答案中，至少包含1个正确的结果。例如Pass@1就是只生成一个答案，准确的比例。如果是Pass@10表示一次性生成10个答案其中至少有一个准确的比例。目前，收集的包含Pass@1、Pass@10和Pass@100

大模型编程能力评测对比表

https://www.datalearner.com/ai-models/leaderboard/datalearner-llm-coding-leaderboard

关于大模型的其它综合能力排行（如文本理解、数学能力等）

参考DataLearner大模型综合排行榜： https://www.datalearner.com/ai-models/llm-evaluation

您的支持让知识持续发光

当前状态

用户规模

每日 3000+ 用户在此学习

运营成本

设计/开发/运营/部署费用已连续 3个月超支

社会价值

用技术手段为往圣继绝学

转发分享

资金支持

一杯奶茶￥10

单次资源下载或咨询免费

一顿火锅￥199

年内资源下载和咨询免费

终身学习社群

大于10元的任意金额即可加入

金额不限备注邮箱或者微信

微信扫码支持

支付宝扫码支持