Ситуация становится жестокой, GPT-4o потерпел поражение от новой модели Google, официальный аккаунт ChatGPT: все делают глубокий вдох

Это жестоко, GPT-4o потерпел поражение от новой модели Google, официальный аккаунт ChatGPT: все делают глубокий вдох

2024-08-02

Да ладно, GPT-4o превзошла новая модель Google!

За неделю анонимно проголосовали более 12 тысяч человек.Близнецы 1.5 Про (0801) Представляя Google, впервые занял первое место на арене lmsys. (Китайская задача также занимает первое место)

И на этот раз это двойная корона, помимо общего рейтинга (единственный балл – 1300), в.Визуальная таблица лидеровЭто тоже номер один.

Саймон Токумине, ключевая фигура в команде Gemini, опубликовал поздравительное сообщение:

(Эта новая модель) — самый мощный и умный Близнец, который мы когда-либо создавали.

Один из пользователей Reddit также назвал модель «очень хорошей» и выразил надежду, что ее функциональность не будет сокращена.

Все больше пользователей сети выразили радость по поводу того, что OpenAI наконец-то бросили вызов и выпустят новую версию, чтобы дать отпор!

Официальный аккаунт ChatGPT также кое-что подразумевает.

На фоне ажиотажа руководитель продукта Google AI Studio объявил, что модель вышла на рынок.Этап бесплатного тестирования：

Доступно бесплатно в студии AI.

Пользователь сети: Google наконец-то здесь!

Строго говоря, Gemini 1.5 Pro (0801) на самом деле не новая модель.

Долженэкспериментальная версияСозданная на основе версии Gemini 1.5 Pro, выпущенной Google в феврале, серия 1.5 позже расширила контекстное окно до 2 миллионов.

По мере обновления модели имя становится все длиннее, что также вызывает у людей недовольство.

Нет, его поздравил сотрудник OpenAI, не забывая быть странным:

Конечно, хотя название трудно запомнить, Gemini 1.5 Pro (0801) на этот раз показал себя хорошо в официальной оценке арены.

Общая тепловая карта винрейта показывает, что она на 54% лучше, чем GPT-4o, и на 59% лучше, чем Claude 3.5 Sonnet.

существоватьмногоязычностьВ бенчмарк-тестах он занимает первое место на китайском, японском, немецком и русском языках.

Однако в Coding и Hard Prompt Arena он по-прежнему не может победить таких противников, как Claude 3.5 Sonnet, GPT-4o и Llama 405B.

Это также подверглось критике со стороны пользователей сети, которые перевели на:

Кодирование — вот что важно, но там оно работает не очень хорошо.

Однако некоторые люди выпустили Amway Gemini 1.5 Pro (0801).Возможности извлечения изображений и PDF-файлов。

Элвис, сооснователь DAIR.AI, лично провёл полный комплекс испытаний нефтепровода и пришел к выводу:

Визуальные возможности очень близки к GPT-4o.。

Кроме того, кто-то использовал Gemini 1.5 Pro (0801) для решения проблемы, на которую раньше не отвечал Claude 3.5 Sonet.

Результаты показали, что он не только показал себя лучше, но и победил своего маленького друга Gemini 1.5 Flash.

Но, некоторыеКлассический тест на общие знанияОн до сих пор не может разобраться, например: «Напишите десять предложений, которые заканчиваются яблоками».

Еще кое-что

Между тем, серия Google Gemma 2 приветствует новыйМодель с 2 миллиардами параметров。

Джемма 2 (2Б)Готов из коробки, может работать на бесплатном графическом процессоре T4 от Google Colab.

В таблице лидеров арены этоПревосходит все модели GPT-3.5., даже превосходя Mixtral-8x7b.

Столкнувшись с последним набором новых рейтингов Google, ArenaАвторитетность спискаСнова всем допрошен.

Соучредитель Nous Research Teknium (известный игрок в области тонко настроенного пост-тренинга) опубликовал напоминание:

Хотя Gemma 2 (2B) набирает баллы выше, чем GPT-3.5 Turbo на Arena, они значительно ниже, чем у последнего на MMLU.
Это несоответствие было бы тревожным, если бы кто-то использовал рейтинг арены как единственный показатель эффективности модели.

Бинду Редди, генеральный директор Abacus.AI, даже обратился напрямую:

Пожалуйста, немедленно прекратите использование этой таблицы лидеров с человеческим рейтингом!
Claude 3.5 Sonnet намного лучше GPT-4o-mini.
Подобные оценки Близнецов/Джеммы не должны занимать столь высокое место в этом рейтинговом списке.

Итак, считаете ли вы, что этот метод анонимного голосования людей все еще надежен?

Новости

Это жестоко, GPT-4o потерпел поражение от новой модели Google, официальный аккаунт ChatGPT: все делают глубокий вдох

Введение

моя контактная информация