Новости

Это жестоко, GPT-4o потерпел поражение от новой модели Google, официальный аккаунт ChatGPT: все делают глубокий вдох

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Да ладно, GPT-4o превзошла новая модель Google!

За неделю анонимно проголосовали более 12 тысяч человек.Близнецы 1.5 Про (0801) Представляя Google, впервые занял первое место на арене lmsys. (Китайская задача также занимает первое место)



И на этот раз это двойная корона, помимо общего рейтинга (единственный балл – 1300), в.Визуальная таблица лидеровЭто тоже номер один.



Саймон Токумине, ключевая фигура в команде Gemini, опубликовал поздравительное сообщение:

(Эта новая модель) — самый мощный и умный Близнец, который мы когда-либо создавали.



Один из пользователей Reddit также назвал модель «очень хорошей» и выразил надежду, что ее функциональность не будет сокращена.



Все больше пользователей сети выразили радость по поводу того, что OpenAI наконец-то бросили вызов и выпустят новую версию, чтобы дать отпор!



Официальный аккаунт ChatGPT также кое-что подразумевает.



На фоне ажиотажа руководитель продукта Google AI Studio объявил, что модель вышла на рынок.Этап бесплатного тестирования

Доступно бесплатно в студии AI.



Пользователь сети: Google наконец-то здесь!

Строго говоря, Gemini 1.5 Pro (0801) на самом деле не новая модель.

Долженэкспериментальная версияСозданная на основе версии Gemini 1.5 Pro, выпущенной Google в феврале, серия 1.5 позже расширила контекстное окно до 2 миллионов.

По мере обновления модели имя становится все длиннее, что также вызывает у людей недовольство.

Нет, его поздравил сотрудник OpenAI, не забывая быть странным:



Конечно, хотя название трудно запомнить, Gemini 1.5 Pro (0801) на этот раз показал себя хорошо в официальной оценке арены.

Общая тепловая карта винрейта показывает, что она на 54% лучше, чем GPT-4o, и на 59% лучше, чем Claude 3.5 Sonnet.



существоватьмногоязычностьВ бенчмарк-тестах он занимает первое место на китайском, японском, немецком и русском языках.



Однако в Coding и Hard Prompt Arena он по-прежнему не может победить таких противников, как Claude 3.5 Sonnet, GPT-4o и Llama 405B.



Это также подверглось критике со стороны пользователей сети, которые перевели на:

Кодирование — вот что важно, но там оно работает не очень хорошо.



Однако некоторые люди выпустили Amway Gemini 1.5 Pro (0801).Возможности извлечения изображений и PDF-файлов

Элвис, сооснователь DAIR.AI, лично провёл полный комплекс испытаний нефтепровода и пришел к выводу:

Визуальные возможности очень близки к GPT-4o.



Кроме того, кто-то использовал Gemini 1.5 Pro (0801) для решения проблемы, на которую раньше не отвечал Claude 3.5 Sonet.

Результаты показали, что он не только показал себя лучше, но и победил своего маленького друга Gemini 1.5 Flash.



Но, некоторыеКлассический тест на общие знанияОн до сих пор не может разобраться, например: «Напишите десять предложений, которые заканчиваются яблоками».



Еще кое-что

Между тем, серия Google Gemma 2 приветствует новыйМодель с 2 миллиардами параметров



Джемма 2 (2Б)Готов из коробки, может работать на бесплатном графическом процессоре T4 от Google Colab.



В таблице лидеров арены этоПревосходит все модели GPT-3.5., даже превосходя Mixtral-8x7b.



Столкнувшись с последним набором новых рейтингов Google, ArenaАвторитетность спискаСнова всем допрошен.

Соучредитель Nous Research Teknium (известный игрок в области тонко настроенного пост-тренинга) опубликовал напоминание:

Хотя Gemma 2 (2B) набирает баллы выше, чем GPT-3.5 Turbo на Arena, они значительно ниже, чем у последнего на MMLU.
Это несоответствие было бы тревожным, если бы кто-то использовал рейтинг арены как единственный показатель эффективности модели.



Бинду Редди, генеральный директор Abacus.AI, даже обратился напрямую:

Пожалуйста, немедленно прекратите использование этой таблицы лидеров с человеческим рейтингом!
Claude 3.5 Sonnet намного лучше GPT-4o-mini.
Подобные оценки Близнецов/Джеммы не должны занимать столь высокое место в этом рейтинговом списке.



Итак, считаете ли вы, что этот метод анонимного голосования людей все еще надежен?