новости

конференция разработчиков openai раздает подарочные наборы: значительное снижение стоимости моделей, приложения с голосовой поддержкой искусственного интеллекта и небольшие модели, «улучшающие» производительность больших моделей.

2024-10-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

автор статьи: ли дань

во вторник, 1 октября по восточному времени, openai провела свою ежегодную конференцию разработчиков devday. на конференции в этом году не было представлено каких-либо крупных продуктов. она была более сдержанной, чем прошлогодняя конференция, но openai также раздала участникам несколько крупных «подарочных пакетов». разработчиков», внося улучшения в существующие инструменты искусственного интеллекта (ии) и наборы api.

на openai devday представлен ряд новых инструментов, включая четыре основных нововведения: оперативное кэширование, тонкая настройка видения, api реального времени и дистилляция моделей. это приносит хорошие новости для разработчиков с точки зрения затрат, повышения уровня визуального понимания моделей и улучшения. функции голосового искусственного интеллекта и производительность небольшой модели.

в некоторых комментариях говорилось, что цель devday в этом году — улучшить возможности разработчиков и продемонстрировать истории круга разработчиков, которые показывают, что по мере того, как конкуренция в области ии становится все более жесткой, стратегия openai изменилась. вышеупомянутые новые инструменты подчеркивают стратегическую направленность openai на укрепление своей экосистемы разработчиков, а не на прямую конкуренцию в приложениях для конечных пользователей.

некоторые сми упомянули, что на пресс-конференции перед мероприятием devday директор по продуктам openai кевин вейл рассказал о недавних уходах технического директора openai миры мурати и главного научного директора боба макгрю, заявив, что их уход не повлияет на развитие компании». мы этого не делаем. это замедлится».

оперативное кэширование может снизить стоимость входных токенов до 50 %.

оперативное кэширование слов считается самым важным обновлением, выпущенным в этот devday. эта функция предназначена для снижения затрат разработчиков и уменьшения задержек.

система кэширования подсказок, представленная openai, автоматически предоставляет 50% скидку на входные токены, недавно обработанные моделью, что может привести к значительной экономии для приложений, которые часто повторно используют контекст. такое резкое снижение затрат предоставляет предприятиям и стартапам значительные возможности для изучения новых приложений, которые ранее были недоступны из-за непомерно высоких затрат.

оливье годеман, менеджер по продукту платформы openai, рассказал, что gpt-3 имел большой успех два года назад, а теперь openai сократила соответствующие затраты почти в 1000 раз. он не смог привести ни одного другого примера, когда затраты сократились бы на ту же сумму за два года.

на следующей диаграмме openai показано, что оперативное кэширование слов может значительно снизить затраты на применение моделей ии. по сравнению с некэшируемыми токенами различных моделей gdp стоимость кэширования входных токенов может быть снижена до 50%.

vision fine-tuning: новый рубеж визуального ии

openai devday объявила, что последняя модель большого языка openai (llm) gpt-4o представляет визуальную тонкую настройку. эта функция позволяет разработчикам настраивать визуальное восприятие своих моделей с помощью изображений и текста.

это крупное обновление, известное как новый рубеж визуального ии. это может иметь далеко идущие последствия в таких областях, как беспилотные автомобили, медицинская визуализация и возможности визуального поиска.

openai сообщила, что grab, юго-восточная азиатская версия meituan + didi, использовала эту технологию для улучшения своих картографических сервисов. используя всего 100 примеров, grab улучшил точность подсчета полос на 20% и расположение знаков ограничения скорости на 13%.

это реальное приложение демонстрирует возможности визуальной тонкой настройки с использованием небольших объемов данных визуального обучения для значительного улучшения услуг ии в различных отраслях.

api реального времени устраняет пробел в диалоговом искусственном интеллекте

openai devday выпустила api реального времени, который в настоящее время находится на стадии публичного бета-тестирования. api реального времени по своей сути упрощает процесс создания голосовых помощников и других инструментов диалогового искусственного интеллекта, устраняя необходимость объединения нескольких моделей для транскрипции, вывода и преобразования текста в речь.

этот новый продукт позволяет разработчикам создавать мультимодальные возможности с малой задержкой, особенно в приложениях для преобразования речи в речь. это означает, что разработчики могут начать добавлять голосовое управление chatgpt в приложения.

чтобы проиллюстрировать потенциал api, openai продемонстрировала обновленную версию wanderlust, приложения для планирования путешествий, которое она продемонстрировала на прошлогодней конференции.

с помощью api в режиме реального времени пользователи могут напрямую общаться с новой версией приложения и вести естественный диалог для планирования своего маршрута. система даже позволяет пользователям прерывать посреди предложения, имитируя человеческий разговор.

планирование путешествий — это лишь один пример. api-интерфейсы реального времени открывают широкий спектр возможностей для голосовых приложений в различных отраслях. независимо от того, специализируются ли разработчики на обслуживании клиентов, обучении или инструментах обеспечения доступности для людей с ограниченными возможностями, теперь они могут воспользоваться новыми ресурсами для создания более интуитивно понятного и гибкого опыта на основе искусственного интеллекта.

некоторые приложения, в том числе приложение для тренировок по питанию и фитнесу healthify и платформа для изучения языков speak, уже взяли на себя инициативу по интеграции api-интерфейсов реального времени в свои продукты.

в комментариях говорится, что api реального времени стоит недешево: он взимает 0,06 доллара за минуту ввода звука и 0,24 доллара за минуту вывода звука, но он все же может представлять собой важное ценное предложение для разработчиков, желающих создавать голосовые приложения.

модельная дистилляция позволяет небольшим моделям иметь передовые модельные функции.

на этот раз дистилляция моделей считается самым преобразующим новым инструментом openai. этот интегрированный рабочий процесс позволяет разработчикам точно настраивать относительно небольшие и экономичные университетские модели, используя результаты передовых моделей, таких как gpt o1-preview и gpt-4o, тем самым улучшая более эффективные модели, такие как gpt-4o mini. производительность.

этот подход позволяет небольшим компаниям воспользоваться преимуществами, аналогичными возможностям передовых моделей, не неся при этом вычислительные затраты на использование таких моделей. это помогает преодолеть разрыв, который уже давно существует в индустрии искусственного интеллекта между передовыми, ресурсоемкими системами и более доступными, но менее мощными системами.

например, небольшой стартап в сфере медицинских технологий хочет разработать диагностический инструмент на основе искусственного интеллекта для сельских клиник. используя дистилляцию модели, компания может обучить компактную модель, которая будет использовать большую часть диагностических возможностей более крупной модели, при этом ее нужно будет запускать только на стандартном ноутбуке или планшете.

таким образом, дистилляция моделей может позволить средам с ограниченными ресурсами пользоваться сложными функциями искусственного интеллекта, потенциально повышая уровень медицинской помощи в недостаточно обслуживаемых районах.