моя контактная информация
Почта[email protected]
2024-08-02
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Яростно вставая,ГПТ-4оОбогнала новая модель Google!
За неделю анонимно проголосовали более 12 тысяч человек.Близнецы 1.5 Про (0801)Представляя Google, впервые занял первое место на арене lmsys.(Китайская задача также занимает первое место)
И на этот раз это двойная корона, помимо общего рейтинга.(Единственный счет 1300),существоватьВизуальная таблица лидеровЭто тоже номер один.
Саймон Токумине, ключевая фигура в команде Gemini, опубликовал поздравительное сообщение:
(Эта новая модель) — самый мощный и умный Близнец, который мы когда-либо создавали.
Один из пользователей Reddit также назвал модель «очень хорошей» и выразил надежду, что ее функциональность не будет сокращена.
Больше пользователей сети выразили волнение.OpenAIНаконец-то бросили вызов новому выпуску!
Официальный аккаунт ChatGPT также кое-что подразумевает.
На фоне ажиотажа руководитель продукта Google AI Studio объявил, что модель вышла на рынок.Этап бесплатного тестирования:
Доступно бесплатно в студии AI.
Пользователь сети: Google наконец-то здесь!
Строго говоря, Gemini 1.5 Pro (0801) на самом деле не новая модель.
Долженэкспериментальная версияСозданная на основе версии Gemini 1.5 Pro, выпущенной Google в феврале, серия 1.5 позже расширила контекстное окно до 2 миллионов.
По мере обновления модели имя становится все длиннее, что также вызывает у людей недовольство.
Нет, его поздравил сотрудник OpenAI, не забывая быть странным:
Конечно, хотя название трудно запомнить, Gemini 1.5 Pro (0801) на этот раз показал себя хорошо в официальной оценке арены.
Общая тепловая карта винрейта показывает, что она на 54% лучше, чем GPT-4o, и на 59% лучше, чем Claude 3.5 Sonnet.
существоватьмногоязычностьВ бенчмарк-тестах он занимает первое место на китайском, японском, немецком и русском языках.
Однако в Coding и Hard Prompt Arena он по-прежнему не может победить таких противников, как Claude 3.5 Sonnet, GPT-4o и Llama 405B.
Это также подверглось критике со стороны пользователей сети, которые перевели на:
Кодирование — вот что важно, но там оно работает не очень хорошо.
Однако некоторые люди выпустили Amway Gemini 1.5 Pro (0801).Возможности извлечения изображений и PDF-файлов。
Элвис, сооснователь DAIR.AI, лично провёл полный комплекс испытаний нефтепровода и пришел к выводу:
Визуальные возможности очень близки к GPT-4o.。
Кроме того, кто-то использовал Gemini 1.5 Pro (0801) для решения проблемы, на которую раньше не отвечал Claude 3.5 Sonet.
Результаты показали, что он не только показал себя лучше, но и победил своего маленького друга Gemini 1.5 Flash.
Но, некоторыеКлассический тест на общие знанияОн до сих пор не может этого понять, например: «Напишите десять предложений, которые заканчиваются яблоками».
Еще кое-что
Между тем, серия Google Gemma 2 приветствует новыйМодель с 2 миллиардами параметров。
Джемма 2 (2Б)Готов из коробки, может работать на бесплатном графическом процессоре T4 от Google Colab.
В таблице лидеров арены этоПревосходит все модели GPT-3.5., даже превосходя Mixtral-8x7b.
Столкнувшись с последним набором новых рейтингов Google, ArenaАвторитетность спискаСнова все допрошены.
Текниум, соучредитель Nous Research(Известный игрок в сфере точного обучения)Сообщение-напоминание:
Хотя Gemma 2 (2B) набирает баллы выше, чем GPT-3.5 Turbo на Arena, они значительно ниже, чем у последнего на MMLU.
Это несоответствие было бы тревожным, если бы кто-то использовал рейтинг арены как единственный индикатор эффективности модели.
Бинду Редди, генеральный директор Abacus.AI, даже обратился напрямую:
Пожалуйста, немедленно прекратите использовать эту таблицу лидеров с человеческим рейтингом!
Claude 3.5 Sonnet намного лучше GPT-4o-mini.
Подобные оценки Близнецов/Джеммы не должны занимать столь высокое место в этом рейтинговом списке.
Итак, считаете ли вы, что этот метод анонимного голосования людей все еще надежен?