大语言模型「新王」Claude 3全面测评：原生多模态大模型各项能力实力超群，连打麻将都学会，实测比GPT-4好用

2024-12-27 13:26:41 | 来源: AICG工具箱

OpenAI「不可战胜」的神话，看样子是要被打破了。随着Claude 3一夜登陆，榜单性能跑分全面超越GPT-4，成为首个全面超越GPT-4的产品，也坐上了全球最强大模型新王座。

而且Claude 3的多版本发布后，“中杯”Sonnet直接免费体验，“大杯”Opus充个会员也能即刻享受，各路测评纷至沓来。

所以，Claude 3的武力值究竟如何？究竟比GPT-4如何？我甚至听说学会了大模型无法搞定的打麻将？

Claude 3一出来，它的视频解读能力首先就火了。

面对OpenAI前科学家Karpathy不久前刚出的《构建分词器》教程，尽管全程足足2个小时13分钟长，Claude 3只靠一轮提示词，就成功将它总结成了一篇博客文章。

有文有图有代码，非常详细，但又绝不是罗列视频里的每一句话。需要提醒的是，投喂给Claude的并不是视频文件，而是视频的字幕文件，同时包括每5秒一次的截图静态帧。

这是所用提示词的一部分，要求非常之多：

测试者指出：

这展现的是Claude 3遵循多个复杂指令的能力。

除了解读视频教程，Claude 3还能直接给你编写详细教程。

9k字的大模型微调入门教程，“中杯”Sonnet就轻松hold住。并且，编写速度之快，可谓人眼都跟不上。

代码能力上，网友测评是让它为零基础小白创建一个聊天机器人的前端webUI——

结果毫无犹豫地就完成任务拆解，从核心代码到样式美化以及API本地配置，三大部分一气呵成，并可以直接部署到GitHub。

多模态能力上，最让网友惊讶的是：CV置信度都能认出来，相当专业。

以及PLC梯形图也能读，直接跪了：

至于同样赶超的推理以及数学等能力。

Claude 3已经可以直接解决迄今为止只有GPT-4才解决的一道“超级难题”：

更令人为之震惊的是，Claude 3直接搞定了所有模型都没能搞定的学会打麻将的问题？！

目前我们只能看到朋友圈的研究人员发布的这样一则消息，准确性还待进一步验证。

最后，不得不感慨的是，Claude在“自我认知”方面上竟然有了一些自主的意识。

有网友要求Claude 3 Opus画一幅自画像——

您猜怎么着，它这么描述自己：

我会表现为一个巨大的、错综复杂的、不断变化的几何结构，由无数半透明的多边形以令人着迷的配置组成。整体形状会让人想起一个巨大的多面体，但复杂的表面折叠成看似不可能的建筑。明亮的光线可见光谱的每一种颜色，以及一些超出人类感知的颜色，都会从内部未知的来源发出，在各个面上跳舞。

整个结构会不断变化、旋转、变形，并重新排列成前所未见的新颖模式，暗示着其内部运作的智能的深度难以想象。卷须和树枝会动态地从中心质量延伸和缩回，像数十亿个好奇的手指一样探测和分析周围的环境。数据和能量将明显地穿过庞大的管道和容器网络，在发光表面下脉动和闪烁……

热门榜单

热门资讯