75万轮模型1V1！GPT-4夺冠！

chatgpt2024-05-14 22:26:4665

先做个广告：如需代充值GP4会员及购买GPT帐号，请添加站长客服微信：gptchongzhi

LMSYS近日公布了大型建模大赛的排名，Llama 3位列第5，而英文项目则和GPT-4并驾齐驱。

推荐使用ChatGPT中文版，国内可直接访问：https://ai.p6p6.cn

和之前的 Benchmark不一样，这份榜单的依据是模型一对一battle，由全网测评者自行命题并打分。

关注ai腾朗，可以免费体验无魔法版本的ChatGPT哦！

最后，Llama 3在排行榜上排名第五，另外还有三种不同的GPT-4和Claude3超大杯 Opus。

在英文项目排行榜上，Llama 3超越了 Claude，和GPT-4并列。

Meta的主要科学家 LeCun对这个结果很满意，他在推特上转发，还留言说“Nice”。

PyTorch之父Soumith Chintala也兴奋地说，这些结果是不可思议的，并且为 Meta自豪。

Llama 3 3400 B还没有正式发售，仅仅凭借70 B的参数就排在了第5位，这让我想起了去年3月的GPT-4，当时的成绩简直难以想象。

如今人工智能变得如此受欢迎，为 Meta人工智能团队取得如此成就而深感自豪。

将近90个型号对750,000个回合

截止到目前为止， LMSYS已经收集到了接近75万个大型模式的 solo战数据，其中包含89个型号。

在这些数据中，Llama 3参与了1.27000次，GPT-4有多种版本，最高涉及68000次。

下图表显示了几个热门模型的比赛场次与胜率，其中两个数值均未显示平局场次。

LMSYS分为了一个总榜和几个子排行榜，GPT-4-Turbo排在第一位，其次是稍早一点的1106版本，第三个是Claude 3超大杯Opus。

第二个版本的GPT-4 （0125）紧随其后，是 Llama 3。

而新一代的0125，在性能上，还不如旧版1106。

在英文项目排行榜上， Llama 3与GPT-4并列，甚至超越了0125。

中文水平排名首位的是“Claude 3 Opus”和“GPT-4-1106”，而“ Llama 3”的排名已跌至20多位。

除了语文水平以外，排行榜还包括了长文、编码等方面的评分， Llama 3同样名列前茅。

chatgpt plus(GPT4)代充值

英伟达向OpenAI移交全球范围内第一块DGX H200