новости

openai открывает разработчикам движок голосового искусственного интеллекта

2024-10-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

whip bulls сообщила, что 2 октября, по зарубежным данным, openai открывает для других разработчиков свой голосовой движок ai, обеспечивающий поддержку расширенного голосового режима chatgpt.

разработчики будут иметь доступ к технологии в режиме реального времени, благодаря которой ии сможет понимать голосовые команды и вести голосовые разговоры в сценариях, подобных живому телефону.

ранее этот процесс требовал от разработчиков пройти как минимум три этапа: сначала расшифровать аудио, затем запустить сгенерированную текстовую модель для получения ответа на запрос и, наконец, использовать отдельную модель преобразования текста в речь.

этот шаг открывает путь для волны приложений искусственного интеллекта, предлагающих диалоговые голосовые интерфейсы.

новая функция преобразования речи в речь — одно из нескольких объявлений, которые openai сделала на своем мероприятии devday в сан-франциско во вторник.

среди первых тестеров этой функции — приложение для питания и фитнеса healthify и приложение для изучения языков speak.

другие новые функции, доступные разработчикам, включают возможность точной настройки моделей на основе изображений.

в демонстрации для журналистов руководители openai продемонстрировали пример новой аудиофункции в сочетании с api twilio, которая позволяет ии-помощнику позвонить в вымышленную кондитерскую и заказать 400 клубник в шоколаде.

среди демонстраций инструмента по настройке был один пример общения с системой искусственного интеллекта, чтобы помочь найти местные продукты, такие как клубника. затем ии звонит продавцу, чтобы заказать клубнику, и получает инструкции от пользователя о том, какую сумму заказать и сколько он собирается потратить.

openai утверждает, что любому, кто использует такую ​​технологию, не разрешается скрывать, что это искусственный интеллект, а не человек, и он предлагает разработчикам только шесть пресетов, а не создает новые звуки.

разработчики могут использовать только звуки, предоставляемые openai — те же возможности, что и в chatgpt.

хотя звуки не имеют водяных знаков и разработчикам не обязательно распознавать себя системами искусственного интеллекта, openai утверждает, что использование ее систем для рассылки спама или введения людей в заблуждение нарушает условия обслуживания компании.

объявления прозвучали на фоне шквала новостей о создателе chatgpt, включая продолжающуюся масштабную кампанию по сбору средств и уход на прошлой неделе технического директора миры мурати и двух других руководителей.