2025-02-26 16:07:10 | 来源: AICG工具箱
AI奇点网6月4日报道丨尽管亮相时被OpenAI压了一头,但谷歌一直在悄悄迭代Gemini大模型,和OpenAI最新大模型GPT-4o的差距已经显著缩小。
最新的大模型基准测评排行测试结果显示,Gemini 1.5 Pro/Advanced在综合测试中排名第二,逼近OpenAI的旗舰模型GPT-4o,轻量版的Gemini 1.5 Flash排名第9,已经超越了 Llama-3-70b,接近GPT-4。
相比4月份的版本,对用户免费的Gemini Pro和Gemini Flash的能力有明显加强。且上下文长度窗口的吞吐可以达到100万Token,远远超出GPT-4目前提供的12.8万Token,在实用性上领先。
此外,谷歌Gemini的中文能力表现更是惊艳,在中文内容的测试中,Gemini Pro和Gemini Advanced双双超越GPT-4o,包揽了前两位。
在针对复杂提示词「Hard Prompts」的测试中,谷歌Gemini同样名列前茅。在该专项挑战当中,大模型需要面对那些更具挑战性的问题,Gemini 1.5 Pro在测试中排名第二,仅次于GPT-4o。
从大模型置信区间(Confidence Intervals)来看,Gemini的测试结果也名列前茅。
值得一提的是,就在两周前的I/O开发者大会上,谷歌Gemini更新再次撞档GPT-4o发布,被后期在舆情讨论热度上截胡。
而就在过去的数周内,谷歌Gemini因为羸弱的大模型推理能力几乎引来了群嘲。
根据多家科技博客的测评,即使谷歌已经对Gemini 1.5 Pro进行了数月的改进,但从常识推理到多模态能力和代码能力,仍然无法与OpenAI最新的GPT-4o模型相媲美。唯一亮点就是更大的长文本上下文窗口。
这次的测评结果显示,加紧进度“卷”模型能力的谷歌Gemini取得了如此神速的进步,显示出AI界“黄埔军校”仍然有深厚的技术底蕴。
热门榜单
闪剪
常用AI夸克
常用AIGlow AI
常用AIVmake AI
常用AIPicTech AI
常用AIEmo-阿里巴巴的AI视频生成框架
常用AI醒图
常用AIPic Copilot
常用AI腾讯文库AI
常用AI热门资讯
百度网盘修图是什么_百度网盘AI修图是什么_百度网盘怎么修图_百度网盘修图使用方法
01-06讯飞星火大模型V3.5春季上新,长文本长图长语音,生产力实测:你的超级知识助手来了!
12-26Sora 平替:AI视频工具 Haiper免费来袭|零基础应用教程
01-09AIGC落地应用教程丨关于如何利用AIGC工具进行古诗词视频制作
01-09三星「Galaxy AI」引入多项AI新功能“手稿生成图像”“作业帮手”等丨谷歌DeepMind CEO:AI智力水平还不如家猫?
02-14OpenAI奥特曼瞄准AI医疗诊断,创办健康咨询公司「Thrive AI Health」
02-17Runway最新更新_runway开放Gen-3
02-19大语言模型「新王」Claude 3全面测评:原生多模态大模型各项能力实力超群,连打麻将都学会,实测比GPT-4好用
12-27AI绘画ComfyUI进阶教程丨如何实现Clip精准控图,流程自动化入门!
01-09AI视频制作流程ComfyUI篇丨高级理解-关于图像、Clip分离精确控制Prompts
01-09