openai, переживающая смутные времена, решила сэкономить бюджеты разработчиков

2024-10-02

автор｜сухой

монтажер｜ван бо

учитывая уход руководителей и выход apple из переговоров о финансировании, это, несомненно, бурная неделя для openai. но openai по-прежнему настаивает на том, чтобы убедить разработчиков создавать приложения, используя их модели ии.

1 октября по местному времени сша openai провела devday в сан-франциско. в отличие от прошлогоднего грандиозного мероприятия, в этом году мероприятие было более сдержанным и превратилось в роуд-шоу для разработчиков.

на этот раз openai не запускает крупный продукт, а вместо этого работает над существующимиииинструменты иapiкомплект постепенно улучшался.

они представили четыре инновации:тонкая настройка зрения в режиме реального времениapi(api реального времени), дистилляция модели и кэширование подсказок.

например, общедоступная бета-версия api реального времени позволяет разработчикам создавать приложения, которые могут быстро генерировать голосовые ответы ии. эта новая технология не только быстро реагирует, но также предоставляет шесть различных вариантов звука. все звуки разработаны самой openai, что позволяет избежать проблем с авторскими правами третьих сторон. этот api не «копирует» расширенный голосовой режим chatgpt, но его функциональность в основном аналогична.

ромен юэ, директор по опыту разработчиков openai, также продемонстрировал, как использовать o1 для создания приложения для iphone ios с подсказкой примерно за 30 секунд.

юте демонстрирует создание приложений для ios для iphone. изображение предоставлено: x ромена юэ

за последние два года openai снизила стоимость доступа разработчиков к своему api на 99% в ответ на давление рынка со стороны таких конкурентов, как meta и google. и из контекста нового инструмента мы можем узнать,стратегия openai направлена на укрепление экосистемы разработчиков, а не на прямую конкуренцию в приложениях для конечных пользователей.

перед мероприятием директор по продуктам openai кевин вейл упомянул, что главный технический директор мира мурати и главный научный сотрудник боб макгрюотставка не повлияет на долгосрочное развитие компании.он сказал, что, несмотря на «частые кадровые изменения», openai все еще может «сохранять темпы развития».

в то время как технологические группы, такие как google и apple, стремятся представить потребителям так называемых агентов искусственного интеллекта,openai думаетииassistant станет мейнстримом в следующем году.возможности ии-помощников, включая рассуждение и выполнение сложных задач, стали последним полем битвы для технологических компаний, каждая из которых надеется использовать эту быстро развивающуюся технологию для увеличения потоков доходов.

«есть надежда, что методы взаимодействия ии смогут охватить все способы взаимодействия людей», — сказал вейр: «развитие агентных систем сделает это взаимодействие возможным». используемые в нем методы, будь то вербальное общение, эмоциональное выражение или невербальное общение и т. д., делают взаимодействие человека и ии максимально естественным и плавным.

помимо openai, другие компании, такие как microsoft, salesforce и workday, также ставят возможности агентов в основу своих планов по искусственному интеллекту, в то время как google и meta также заявили, что интеграция моделей искусственного интеллекта в их продукты является для них ключевым направлением деятельности.

в прошлом году openai выпустила свой «api-помощник», позволяющий разработчикам создавать агентов с использованием ее технологии. но они также сообщили, что планам мешала ограниченная функциональность ранних моделей.

вайль упомянул, что улучшения в мышлении и рассуждениях, обеспечиваемые последними моделями openai, будут отражены в ее продуктах, таких как chatgpt, а также в стартапах и разработчиках, которые создают приложения с использованием его api, но не сказал, будут ли они немедленно разрабатывать свои собственные. агент ии.

openai продемонстрировала живое общение с системой искусственного интеллекта, которой было поручено помочь найти и приобрести продукты, доступные на местном уровне. например, если вы покупаете клубнику, ии позвонит продавцу, чтобы разместить заказ в соответствии с инструкциями пользователя.

демонстрация того, как ии покупает клубнику по подсказкам. источник изображения: ken collins’ x.

openai подчеркивает, что любой, кто использует эту технологию, должен дать понять, что это ии, а не человек, и что она предоставляет разработчикам лишь ограниченные предустановленные параметры, а не возможность создавать новые звуки.

«если мы сделаем все правильно, у нас будет больше времени, чтобы сосредоточиться на том, что важно, и меньше времени, глядя на наши телефоны», — сказал уэр.

1. кэширование советов: спасение бюджета разработчиков

функция «кэша подсказок» является одним из наиболее важных запусков этого мероприятия и используется для снижения затрат и задержек для разработчиков.

многие разработчики, создающие приложения искусственного интеллекта, повторно используют один и тот же контекст в нескольких вызовах api, например, при редактировании базы кода или при длительном многоходовом разговоре с чат-ботом. кэш подсказок автоматически применяет скидку 50 % к последнему обработанному моделью входному токену путем повторного использования последнего просмотренного входного токена.

кэширование входных токенов позволяет сэкономить до 50% по сравнению с некэшированными токенами в различных моделях gpt. источник изображения: openai

доступность и цены кэша подсказок. начиная с сегодняшнего дня кэш подсказок будет автоматически применяться к последним версиям gpt-4o, gpt-4o mini, o1-preview и o1-mini, а также к доработанным версиям этих моделей. кэшированные советы дают скидку по сравнению с некэшированными советами.

вызовы api к поддерживаемым моделям будут автоматически получать выгоду от кэширования подсказок для подсказок длиной более 1024 токенов. самый длинный префикс подсказок, вычисляемый до кэша api, начиная с отметки 1024 и с шагом 128 отметок. если пользователь часто использует подсказки с общими префиксами, openai автоматически применит скидку на кэш подсказок, без необходимости вносить какие-либо изменения в интеграцию api.

кэш обычно очищается через 5–10 минут бездействия и всегда удаляется в течение часа после последнего использования кеша. как и все службы api, кэширование подсказок регулируется корпоративным обязательством opai по обеспечению конфиденциальности. кэш чаевых не делится между организациями.

значительное снижение затрат дает возможность различным компаниям разрабатывать новые приложения, внедрение которых раньше было слишком дорогостоящим.

оливье годеман, руководитель разработки платформы openai, выступил на небольшой пресс-конференции в штаб-квартире openai в сан-франциско: «мы были очень заняты. два года назад gpt-3 лидировала в технологии в своем классе, но теперь мы достигли почти 1000-процентного показателя. сокращение сопутствующих расходов в несколько раз». он с гордостью заявил, что не может найти никакой другой технологии, которая позволила бы добиться такого же масштаба снижения затрат всего за два года.

2. тонкая визуальная настройка: новый рубеж визуального ии

еще одним важным объявлением является введение возможностей визуальной тонкой настройки в новейшей крупномасштабной языковой модели openai, gpt-4o. разработчики могут настраивать не только текст, но и изображения, что может изменить такие области, как беспилотные автомобили, медицинские изображения и возможности визуального поиска.

с момента появления тонкой настройки текста сотни тысяч разработчиков использовали только текстовые наборы данных для оптимизации моделей и повышения производительности при выполнении конкретных задач. но во многих случаях одна лишь точная настройка текста не может удовлетворить все потребности. благодаря визуальной тонкой настройке разработчики могут оптимизировать модель gpt-4o, просто загрузив не менее 100 изображений, чтобы улучшить ее производительность в задачах машинного зрения, особенно при обработке больших объемов текстовых и графических данных.

по данным openai, grab, ведущая компания по доставке еды и совместному использованию поездок в юго-восточной азии, уже использовала эту технологию для улучшения своих картографических услуг. используя всего 100 примеров, grab улучшил точность подсчета полос движения на 20 % и точность определения местоположения знаков ограничения скорости на 13 %.

пример знака ограничения скорости, успешно отмеченного с помощью модели визуальной тонкой настройки gpt-4o. источник изображения: openai.

automat использует тонкую визуальную настройку, чтобы научить gpt-4o распознавать элементы пользовательского интерфейса на экране на основе набора снимков экрана, тем самым повышая вероятность успеха своих инструментов автоматизации. таким образом, вероятность успеха робота-агента automat увеличилась с 16,60% до 61,67%.

настольный робот успешно идентифицирует центры элементов пользовательского интерфейса посредством визуальной тонкой настройки с использованием скриншотов веб-сайта, источник: openai.

реальные приложения визуальной тонкой настройки демонстрируют возможности визуальной тонкой настройки для значительного улучшения услуг ии в различных отраслях с использованием небольших пакетов данных визуального обучения.

функция визуальной тонкой настройки теперь доступна всем платным пользователям и поддерживает последнюю модель gpt-4o. разработчики могут использовать эти возможности для расширения существующих наборов обучающих данных для точной настройки изображений. кроме того, openai предлагает 1 миллион бесплатных токенов обучения в день до 31 октября 2024 года. плата за доработку обучения и вывод будет скорректирована позже.

3. api реального времени: устранение разрыва между диалоговым искусственным интеллектом

api реального времени в настоящее время находится на стадии публичной бета-версии. это позволяет разработчикам создавать мультимодальные возможности с малой задержкой, особенно в приложениях преобразования речи в речь. это означает, что разработчики могут начать добавлять голосовое управление chatgpt в свои приложения.

чтобы проиллюстрировать потенциал api, openai продемонстрировала обновленную версию wanderlust, приложения для планирования путешествий, показанного на прошлогодней конференции.

с помощью api реального времени пользователи могут напрямую общаться с приложением и планировать свою поездку в естественной разговорной форме. система даже позволяет прерывать речь, имитируя человеческий разговор.

healthify — это приложение для тренировок по питанию и фитнесу, которое использует api-интерфейсы в реальном времени для естественного общения с искусственным интеллектом. источник изображения: openai

хотя планирование поездок — это лишь один из примеров, api-интерфейсы реального времени открывают широкий спектр возможностей для голосовых приложений в различных отраслях. от обслуживания клиентов до инструментов обучения и обеспечения доступности — у разработчиков теперь есть мощные новые ресурсы для создания более интуитивно понятных и отзывчивых решений на базе искусственного интеллекта.

«всякий раз, когда мы разрабатываем продукт, мы, по сути, думаем одновременно и о стартапах, и о предприятиях», — объяснил голдмент. «итак, на альфа-фазе у нас есть много предприятий, использующих api, а также новые модели для новых продуктов».

api реального времени существенно упрощает процесс создания голосовых помощников и других диалоговых инструментов искусственного интеллекта, устраняя необходимость объединения нескольких моделей для транскрипции, вывода и преобразования текста в речь.

первые пользователи, такие как приложение для тренировок по питанию и фитнесу healthify и платформа для изучения языков speak, интегрировали api, работающие в реальном времени, в свои продукты. api обладают потенциалом для создания более естественного и привлекательного пользовательского опыта в самых разных областях — от здравоохранения до образования.

структура ценообразования api реального времени, хотя и недешевая (0,06 доллара сша за минуту аудиоввода, 0,24 доллара сша за минуту аудиовыхода), все же представляет собой важное ценностное предложение для разработчиков, желающих создавать голосовые приложения.

4. дистилляция моделей: к более доступному ии

возможно, наиболее преобразующим объявлением является введение дистилляции моделей.

его интегрированный рабочий процесс позволяет разработчикам использовать результаты расширенных моделей, таких как o1-preview и gpt-4o, для повышения производительности более эффективных моделей, таких как gpt-4o mini. небольшие компании также могут использовать аналогичные функции продвинутых моделей, не беспокоясь о затратах на вычисления.

демо тонкой настройки, источник: openai

дистилляция моделей устраняет давний разрыв в индустрии искусственного интеллекта между передовыми, ресурсоемкими системами и более доступными, но менее мощными системами.

допустим, небольшой стартап в области медицинских технологий разрабатывает диагностический инструмент с использованием искусственного интеллекта для сельских клиник. используя дистилляцию модели, команда может обучить небольшую модель, которая может работать на стандартном ноутбуке или планшете и фиксировать большую часть диагнозов более крупной модели. .

это может привести к использованию сложных возможностей искусственного интеллекта в условиях ограниченных ресурсов для улучшения результатов здравоохранения в недостаточно обслуживаемых районах.

из этого обновления нетрудно увидеть, что openai внесла важные стратегические изменения, сосредоточив больше внимания на развитии экосистемы, а не просто на запуске привлекательных продуктов, хотя стратегия может быть не такой прямой для публики, как продукт. запускает.

по сравнению с захватывающим днем разработчика в 2023 году, когда был запущен магазин gpt и специальные инструменты gpt, событие этого года гораздо менее значимое. быстрые изменения в области искусственного интеллекта в сочетании со значительными достижениями конкурентов и растущей обеспокоенностью по поводу доступности обучающих данных побудили openai больше сосредоточиться на совершенствовании существующих инструментов и расширении возможностей разработчиков, чтобы справиться с этими изменениями.

повышая эффективность моделей и сокращая затраты, openai надеется сохранить свое преимущество в жесткой конкуренции и решить проблемы ресурсоемкости и воздействия на окружающую среду. успех openai будет во многом зависеть от его способности эффективно развивать динамичную экосистему разработчиков.

ссылки:

《представляем api реального времени》，openai

《представляем концепцию тонкой настройки api》，openai

《быстрое кэширование в api》，openai

《дистилляция модели в api》openai

《devday 2024 openai: 4 крупных обновления, которые сделают ии более доступным и доступным》，venturebeat

《devday openai предлагает api realtime и другие удобства для разработчиков приложений ии》, techcrunch

(источник изображения на обложке: openai)

новости

openai, переживающая смутные времена, решила сэкономить бюджеты разработчиков

введение

моя контактная информация