谷歌杀回来了！新版Gemini跑分超o1登顶第一，CEO：这才哪到哪儿

独特魅力今天 17

默认

摘要： 文丨李安琪编辑丨李勤下半年开始理想几乎把渠道商手里的卡都买了一位知情人士说大模型创业催生的抢购算力潮今年陡然迁移到了汽车行业以理想华为和小鹏汽车为首向端到端智驾发起猛冲的公司尤为激...

文丨李安琪编辑丨李勤“下半年开始，理想几乎把渠道商手里的卡都买了。”一位知情人士说。AI大模型创业催生的抢购算力潮，今年陡然迁移到了汽车行业。以理想、华为和小鹏汽车为首，向端到端智驾发起猛冲的公司，尤为激进。

杀疯了！谷歌新版Gemini超越o1，强势登顶竞技场总榜！

在经6000+网友匿名投票后，不仅数学成绩和学霸o1相当，还拿下其它5个单项。

新模型名为Gemini（Exp 1114），成绩一公布，连CEO皮猜也亲自飞奔来站台。

而竞技场也在时间公布喜讯，并祝贺谷歌：

恭喜达到这一非凡里程碑！

这下尴尬了！说好的谷歌正在遭遇瓶颈呢？没想到人家反手就是一个王炸。

怕了怕了，或许，只有OpenAI立即发布满血版o1才能与之一战了？

目前新模型可在谷歌AI Studio体验，后续也计划提供API。

网友们也纷纷猜测，难道这就是传说中的Gemini 2——

一夜之间，竞技场I ys排名再被刷新：

从总榜来看，谷歌新模型Gemini（Exp 1114）分数直涨40+，挤下了之前一直霸榜的OpenAI模型（包括o1-preview、GPT-4o）。

而且假如正面1v1遇敌，新Gemini貌似都有一半及以上概率取胜。

整体胜率热图显示，Gemini（Exp 1114）对战4o-l est胜率为50%，对战o1-preview胜率为56%，对战Claude-3.5-Sonnet胜率为62%。

同时，Gemini（Exp 1114）在单项上也很能打，一举拿下6个，包括：

复杂提示（Hard Prompts）：模型处理复杂或困难提示的能力；

数学；

创意写作；

指令遵循：评估模型遵循给定指令的能力；

长查询处理（Longer Query）：衡量模型处理较长查询的能力；

多轮对话（Multi-T n）：模型在多轮对话中保持上下文连贯性的能力；

要说最大看点，还是Gemini（Exp 1114）竟能与o1模型在数学能力上不分伯仲。

要知道，据OpenAI 说法，o1不需要专门训练，就能直接拿下数学奥赛金牌，甚至可以在博士级别的科学问答环节上超越人类专家。

不过比较遗憾的是，对于写代码这项重磅功能，Gemini（Exp 1114）虽说相较于谷歌上一版本有所改进，但仍然未能挤进前三。（o1-mini/preview仍处于领先地位）

另外，在风格控制下，Gemini-Exp-1114也和前三无缘，甚至不及自家的Gemini-1.5-pro。（排在o1、4o-l est和Sonnet之后）

解释一下，风格控制（Style Control）是竞技场今年新推出的功能，确保分数反映模型真正问题的能力，而不是用漂亮的格式、增加回答长度。

不过也有意外之喜，Gemini-Exp-1114这一次在视觉能力上拿下，超越了GPT-4o。

整体看下来，对于谷歌这次的反超，大家也感到十分意外。

目前，Gemini-Exp-1114已经可以在谷歌AI Studio体验，且计划后续提供API。

这不，有很多网友已经上手了，但好像争议蛮多——

先总结一下，通过网友，目前可知Gemini-Exp-1114的以下信息：

拥有32k上下文窗口

模型回答知识截止日期为2023年4月，但回答结果会不一样

加上了思维链

其中，32k上下文被大家狠狠吐槽。有人直言相比200万上下文窗口的Gemini 1.5，搁这儿不升反降呢！

兴许是感受到大家的怨气了，谷歌AI Studio负责人赶紧出来打圆场：马上更！马上更！

安抚好众人情绪后，大家终于乐颠颠晒起了使用反馈。

透过其中一位小哥的观察，Gemini-Exp-1114这次也是用上了思维链，在回答时也能像人类一样一步步思考了。

而且，在数学能力上确实不错？

Gemini-Exp-1114正确回答了2024美国数学奥林匹克预选赛II 1-8题。

甚至相对弱项的编码，也有人次尝试就成功了。

然而，翻车总是难免的。

有人问了基准中的物理问题，结果Gemini-Exp-1114虽然有思维链加持，却仍然回答错误。

甚至老生常谈的数字比大小和数草莓中的“r”，竟还是失败。

更搞笑的是，有人问Gemini-Exp-1114“你叫什么？”

结果回答了claude（doge）。

实际上，大家一直在猜测Gemini-Exp-1114会不会是传说中谷歌计划更新的Gemini 2。

但根据实测，相当一部分网友出来表示否定。

毕竟，它好像连旧版1.5 Pro会的问题也无法。

更有人声称，这是谷歌推迟发布更大模型（即Gemini 2）的策略，先弄一个残血版让大家玩玩，这样就别急着催更了。

结合CEO皮猜顺势放烟雾弹的做法，好像又有点道理（doge）！

标签： Gemini 模型 1114

打赏

海报

阅读

谷歌杀回来了！新版Gemini跑分超o1登顶第一，CEO：这才哪到哪儿

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

相关推荐

阿根廷教练击败阿根廷，阿根廷队三场世预赛失利，对手主帅都是阿根廷人

努比亚官宣 Z70 Ultra 手机搭载纯净 OS，号称“无广告，零打扰”

《小巷人家》引热议：珊珊抢房引冲突，说真的，黄玲最没资格看不起珊珊

关键时刻漏防，独行侠输得太憋屈，当家球星不防守，这比赛怎么打？

《小巷人家》黄玲太狠了，这些话句句扎心，女性独立让人无法反驳

媒体人：国安本土前锋储备不错 前场4国脚在18强赛赛场完成集结

11月21日亚预赛主场对阵关岛！中国男篮最新训练图集出炉

导演何青云发布新歌《国足站起来》，为国足加油助威

媒体人：国安本土前锋储备不错前场4国脚在18强赛赛场完成集结