瘦猴 探花 谷歌Gemini数学反超o1预览版!老本仅1/10、无需寥落想考时辰,旧范式还莫得死

发布日期:2024-09-27 21:05    点击次数:110

瘦猴 探花 谷歌Gemini数学反超o1预览版!老本仅1/10、无需寥落想考时辰,旧范式还莫得死

骚波妹影视

数学打败 o1-preview瘦猴 探花,老本仅为额外之一,何况险些莫得想考蔓延!

OpenAI《Her》全量怒放归拢天,谷歌 Gemini 1.5 迎来关键升级。

除此以外,价钱亦然正本的一半,速率适度提高 2-3 倍;输出速率提高 2 倍、蔓延降为正本三分之一。

开采者不错通过 Google AI Studio 和 Gemini API 免费拜访。聊天版块还得再等等。

不外也有网友发现了华点,固然数学智商很强,但如故莫得打败 o1-mini 以及 o1 齐备版(94.8)。

谷歌 Gemini 1.5 大升级

这次更新的有两个型号:Gemini-1.5-Pro-002和Gemini-1.5-Flash-002。

淡雅来说,主要有这些更新:

关于 1.5pro(输入和输出齐小于 128K),降价幅度大于 50%。

速率适度提高 2-3 倍;

输出速率提高 2 倍,蔓延镌汰 3 倍;

更新了默许过滤器确立。

最初,提高了合座性能,尤其在数学、长文本以及多模态方面。

在 MMLU-Pro 上性能提高约 7%;而在 MATH 和 HiddenMath(里面保留的竞赛数知识题集)基准测试中,两种模子有约 20% 的权贵编削,其中 Pro 版块以 86.5% 的收货跨越了 o1-preview(85.5%)。

除此以外,在视觉协调解代码代码生成的评估中也有 2%-7% 的提高。

凭据开采东说念主员的响应,这两个模子目下齐取舍了更浮松的作风,谋略是使这些模子更易于使用并镌汰老本。

关于纲目、问题解答和索求等用例,更新后模子的默许输出长度比夙昔的模子短 5-20%。

价钱方面,1.5pro 输入 token 降价 64%,输出 token 降价 52%,对增量缓存 token 降价 64%,10 月 1 日运行奏效。

速率适度也有所提高,1.5 Flash 的付费速率适度从 1000RPM 提高到 2000RPM;1.5 Pro 速率适度从 360RPM 到 1000RPM。

另外,输出速率提高 2 倍,蔓延减少为正本的三分之一。

关于新模子,过滤器已切换成可选,默许情况下不会期骗过滤器。

终末的终末,还有 Gemini 1.5 Flash-8B 实验版块更新,在文本和多模态智商方面齐有权贵的提高。

网友水汪汪地测试上了

有网友就这样水汪汪地测试上了。

他测试了 Gemini 1.5 Flash 的音频转录功能。后者能在 50-60 秒内转录 13 分钟音频。

多个音频文献测试服从中,转录准确率接近 99%。要是音频明晰,准确率能达到 100%。

有网友测试了它的视觉协调智商,服从奏凯通过,之前难倒了一众视觉模子。

不外谈论最多的如故它数学智商的提高。

不外倒也有网友暗示,数学基准也没啥用。它也曾充足,而且沾污了大遍及模子的磨真金不怕火数据。在践诺天下的数学贫瘠里,这些如故没目的跟 o1 系列同日而言。

固然然则,谷歌升级模子还有一个用处。

那即是 push 一下 OpenAI,飞速发布新模子,以此来"夺回金冠"。

什么本事飞速把 o1 齐备版发了。(Doge)

参考贯穿:

[ 1 ] https://developers.googleblog.com/en/updated-production-ready-gemini-models-reduced-15-pro-pricing-increased-rate-limits-and-more/

[ 2 ] https://www.reddit.com/r/singularity/comments/1fohi2z/gemini_15_002_beats_o1preview_on_math_and_it_does/瘦猴 探花