Google наконец-то победил OpenAI: экспериментальная версия Gemini 1.5 Pro превосходит GPT-4o

2024-08-02

Отчет о сердце машины

Монтажер: Чэнь Чен, Сяочжоу

Благодаря такой мощной модели Google предоставляет каждому бесплатную пробную версию.

За последние два дня Google опубликовал последние исследования. После вчерашнего выпуска самой мощной конечной небольшой модели Gemma 2 2B только что была выпущена экспериментальная версия Gemini 1.5 Pro (0801).

Пользователи могут тестировать и оставлять отзывы через Google AI Studio и Gemini API.

Поскольку это бесплатно, давайте поможем вам протестировать недавно популярную проблему соотношения размеров. Когда мы спросили у Gemini 1.5 Pro (0801), какое число больше, 9,9 или 9,11, модель с первого раза ответила правильно и объяснила причину.

Когда мы продолжили спрашивать «сколько букв «р» в слове «Клубника»», Gemini 1.5 Pro (0801) перевернулся. Применив «заклинание» в подсказках шаг за шагом, анализ модели на четвертом шаге пошел не так.

Тестовый адрес Google AI Studio: https://aistudio.google.com/app/prompts/new_chat

Однако, судя по официальной оценке, Gemini 1.5 Pro (0801) по-прежнему весьма боеспособен по различным показателям. Новая модель быстро возглавила престижную таблицу лидеров LMSYS Chatbot Arena и может похвастаться впечатляющим показателем ELO 1300.

Это достижение ставит Gemini 1.5 Pro (0801) впереди OpenAI GPT-4o.(ELO: 1286) и Claude-3.5 Sonnet от Anthropic (ELO: 1271) и других сильных конкурентов, это может предвещать изменение ландшафта искусственного интеллекта.

Саймон Токумине, ключевой член команды Gemini, называет Gemini 1.5 Pro (0801) самой мощной и самой умной моделью Gemini, которую когда-либо создавала Google.

Помимо того, что Gemini 1.5 Pro (0801) занял первое место в Chatbot Arena, он также очень хорошо показал себя в таких областях, как многоязычные задачи, математика, жесткие подсказки и программирование.

В частности, Gemini 1.5 Pro (0801) первым выступил на китайском, японском, немецком и русском языках.

Но в области кодирования и Hard Prompt по-прежнему лидируют Claude 3.5 Sonnet, GPT-4o, Llama 405B.

На тепловой карте винрейта: Gemini 1.5 Pro (0801) имеет 54% винрейта против GPT-4o и 59% винрейта против Claude-3.5-Sonnet.

Gemini 1.5 Pro (0801) также занимает первое место в рейтинге Vision!

Пользователи сети заявили, что на этот раз Google действительно превзошла всеобщие ожидания. На этот раз давление было оказано на OpenAI.

Хотя Gemini 1.5 Pro (0801) показывает высокие результаты, он все еще находится на стадии эксперимента. Это означает, что модель может подвергнуться дальнейшим модификациям, прежде чем будет широко использоваться.

Комментарии пользователей сети

Некоторые пользователи сети протестировали возможности Gemini 1.5 Pro (0801) по извлечению контента, генерации кода, рассуждениям и т. д. Давайте посмотрим на результаты его тестов.

Источник: https://x.com/omarsar0/status/1819162249593840110

Прежде всего, Gemini 1.5 Pro (0801) имеет мощную функцию извлечения информации об изображении. Например, введите изображение счета и напишите детали счета в формате JSON:

Давайте рассмотрим функцию извлечения содержимого PDF-документа в Gemini 1.5 Pro (0801). На примере классической статьи «Внимание — это все, что вам нужно» извлеките каталог глав статьи:

Пусть Gemini 1.5 Pro (0801) создаст игру Python, которая помогает изучить знания модели большого языка (LLM), которая напрямую генерирует целый код:

Стоит отметить, что Gemini 1.5 Pro (0801) также предоставляет подробные объяснения кода, включая роль функций в коде, способы игры в Python и т. д.

Эту программу можно запустить непосредственно в Google AI Studio и опробовать, например, задавая вопросы с несколькими вариантами ответов об определении токенизации:

Если вы считаете, что вопросы с несколькими вариантами ответов слишком простые и скучные, вы можете позволить Gemini 1.5 Pro (0801) создать более сложную игру:

Получите игру с заполнением пробелов в предложении LLM:

Чтобы проверить способность к рассуждению Gemini 1.5 Pro (0801), пользователи сети задали вопрос «задувающая свеча», но модель ответила неправильно:

Несмотря на некоторые недостатки, Gemini 1.5 Pro (0801) демонстрирует визуальные возможности, близкие к GPT-4o, а также возможности генерации кода, понимания и рассуждения в PDF-файлах, близкие к Claude 3.5 Sonnet, на что стоит рассчитывать.

https://www.youtube.com/watch?v=lUA9elNdpoY

Новости

Google наконец-то победил OpenAI: экспериментальная версия Gemini 1.5 Pro превосходит GPT-4o

Введение

моя контактная информация