GPT-4夺冠,Llama 3意外跻身第五,大模型一对一战斗惊艳75万轮

科技 2024-04-23 14:30 阅读:25

最新发布的大模型排行榜引起了广泛关注,Llama 3意外跻身第五的位置,与GPT-4并列英文单项第一,成为了众人瞩目的焦点。这份排行榜的独特之处在于采用了模型一对一battle的方式进行评测,由全网测评者自行命题并打分,展现了各大模型的真实实力。

在近75万次大模型solo对战中,Llama 3参与了1.27万次的比拼,而GPT-4则以多个不同版本参与了6.8万次的对战,展现出了强大的竞争力。在总榜和多个子榜单中,GPT-4-Turbo脱颖而出,与1106版本和Claude 3超大杯Opus并列第一,而Llama 3紧随其后,位列第五。尤其在英文单项榜单中,Llama 3的表现更是令人惊艳,与GPT-4打成了平手,甚至反超了0125版本。

除了语言能力外,排行榜还设置了长文本和代码能力排名,Llama 3也在这些领域名列前茅,展现出了多方面的实力。而在大模型评测中,人人都可以参与,自行决定题目和评价标准,通过battle和side-by-side两种模式进行模型之间的PK,展现了AI技术的多样性和普及化。

通过Elo评价系统对模型的表现进行评分,最终形成了排行榜的依据。LMSYS团队在修正算法中采用了统计学方法,提高了评分的稳定性和准确性,为排行榜的公正性提供了保障。而Llama 3在大模型推理平台Groq上的表现更是令人瞩目,展现出了惊人的速度和效率。

总的来看,这份排行榜的发布不仅揭示了各大模型的实力对比,也激发了人们对AI技术的探索与期待。GPT-4的夺冠和Llama 3的意外表现,让人们对未来的AI发展充满了无限的想象和期待。