Новости

«Самая мощная функция и низкая стоимость»! OpenAI выпускает GPT-4o mini для участия в конкурсе малых моделей

2024-07-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

OpenAI выпустила «GPT-4o mini» в четверг по восточному времени, приняв участие в конкурсе «маленьких, но усовершенствованных» моделей искусственного интеллекта. Она назвала эту новую модель «самой мощной и недорогой моделью» и планировала интегрировать изображения, видео и аудио. в будущем в эту модель.

Более чем на 60 % дешевле, чем GPT-3.5 Turbo, а производительность чата лучше, чем у конкурирующих продуктов.

Компания заявила, что GPT-4o mini доступен для бесплатных пользователей ChatGPT, подписчиков ChatGPT Plus и Teams начиная с четверга и будет доступен корпоративным пользователям ChatGPT на следующей неделе. GPT-4o mini заменит старую модель GPT-3.5 Turbo в ChatGPT. OpenAI заявила, что GPT-4o mini стоит 15 центов за миллион входных токенов и 60 центов за миллион выходных токенов, что делает его более чем на 60% дешевле, чем GPT-3.5 Turbo.

Компания также заявила, что новая модель в настоящее время превосходит модель GPT-4 по предпочтениям чата и набрала 82% баллов в тесте на понимание многозадачного языка (MMLU). По сообщениям СМИ, MMLU — это тест текстового интеллекта и рассуждения, используемый для оценки возможностей языковой модели. Более высокий балл MMLU указывает на лучшее понимание и использование языка в различных областях, что улучшает его практическое применение.

По данным OpenAI, мини-модель GPT-4o набрала 82%, что выше, чем у двух других недорогих конкурентов, Gemini Flash от Google — 77,9%, а Claude Haiku от Anthropic — 73,8%.

Среди более крупных моделей GPT-3.5 набрал в этом тесте 70%, GPT-4o — 88,7%, а Google утверждает, что Gemini Ultra достигла самого высокого за всю историю результата — 90%.

Анализ показывает, что меньшие языковые модели требуют для работы меньших вычислительных мощностей, что делает их более доступным вариантом для компаний с ограниченными ресурсами для развертывания генеративного ИИ.

Кроме того, эта новая облегченная модель также будет поддерживать текстовые и визуальные функции в API, и OpenAI заявляет, что вскоре будет обрабатывать все мультимодальные входные и выходные данные, такие как видео и аудио. Благодаря этим возможностям он потенциально может действовать как более мощный виртуальный помощник, способный понимать маршрут вашего путешествия и давать рекомендации. Однако в настоящее время эту модель можно использовать только в основном для простых задач.

Конкуренция за «маленькие, но усовершенствованные» модели ИИ ожесточена, и OpenAI наконец-то вступает в игру.

По сообщениям СМИ, стоимость OpenAI, поддерживаемой Microsoft, превысила 80 миллиардов долларов США. Хотя компания по-прежнему занимает лидирующие позиции на рынке генеративного искусственного интеллекта, компания сталкивается с растущим конкурентным давлением. OpenAI также необходимо найти способы зарабатывать деньги, поскольку компания тратит много денег на процессоры и инфраструктуру для создания и обучения своих моделей.

Однако многие компании не могут позволить себе более крупные и дорогие модели, поэтому более популярными могут быть легкие и дешевые модели. До тех пор многие разработчики предпочитали бы выбирать Claude 3 Haiku или Gemini 1.5 Flash вместо того, чтобы платить высокие вычислительные затраты, необходимые для запуска самых мощных моделей. Например, модель меньшего размера лучше всего подходит для автоматизации базовых задач большого объема, а модель большего размера может выполнять более сложную работу. Некоторые разработчики могут захотеть использовать обе модели в одном приложении.

Оливье Годеман, руководитель API-продукта OpenAI, объяснил в интервью СМИ, почему компании не удалось запустить «маленькие и усовершенствованные» модели ИИ ранее. Он сказал, что это чисто «приоритетный вопрос», поскольку OpenAI сосредоточилась на создании Больших и лучших. модели, такие как GPT-4, требуют значительных человеческих и вычислительных ресурсов. Со временем OpenAI заметила, что разработчики все больше и больше стремятся использовать модели меньшего размера, поэтому компания решила, что сейчас самое время инвестировать ресурсы в разработку GPT-4o Mini.

«Наша миссия — создавать самые передовые технологии и создавать самые мощные и полезные приложения, и мы, безусловно, надеемся продолжать создавать передовые модели и способствовать технологическому прогрессу», — сказал руководитель продукта OpenAI API Оливье Годеман в интервью изданию СМИ. «Но мы также хотим иметь лучшую маленькую модель, и я думаю, что она будет очень популярна».

«Я думаю, что GPT-4o Mini действительно воплощает в себе миссию OpenAI по повышению доступности ИИ. Если мы хотим, чтобы ИИ приносил пользу каждому уголку мира, каждой отрасли и каждому приложению, мы должны сделать продукты платформы API OpenAI более доступными», директор Оливье. Об этом Годемент сообщил СМИ.

GPT-4o mini помогает сотрудникам сосредоточиться

Годемент сообщил, что некоторые разработчики тестировали эту модель на прошлой неделе.

OpenAI попросила финтех-стартап Ramp протестировать модель, используя GPT-4o Mini для создания инструмента, который извлекает данные о расходах из квитанций. Таким образом, пользователи могут загружать фотографии своих квитанций, а модель систематизирует для них данные. Почтовый клиент Superhuman также протестировал GPT-4o Mini и использовал его для создания функции, автоматически предлагающей ответы по электронной почте.

Первоначально GPT-4o mini сможет обрабатывать и генерировать текст и изображения. OpenAI заявляет, что как только окончательная версия будет завершена, она сможет обрабатывать другие типы контента.

OpenAI также заявила, что GPT-4o mini — первая модель искусственного интеллекта компании, использующая новую «иерархию инструкций» политики безопасности. Цель этого подхода — заставить системы ИИ отдавать приоритет определенным инструкциям — например, от компаний — чтобы людям было сложнее заставить инструмент делать то, что он не должен делать.

Анализ полагает, что мини-модель GPT-4o является частью стремления OpenAI к «мультимодальности», то есть предоставлению широкого спектра мультимедиа, генерируемого ИИ (например, текста, изображений, аудио и видео), в одном инструменте: ChatGPT.

В прошлом году главный операционный директор OpenAI Брэд Лайткэп сообщил СМИ:

«Мир мультимодален. Если подумать о том, как мы, люди, воспринимаем мир и взаимодействуем с ним, видим вещи, слышим вещи, говорим — мир — это не просто текст. Итак, для нас есть только текст и код, как Единая модальность, единый интерфейс всегда кажется неполным, потому что мощь этих моделей и их возможности гораздо больше».