У «Её» есть образ! Совершайте видеозвонки ИИ практически без задержек, Sequoia YC Investment

У «Её» есть образ! Совершайте видеозвонки ИИ практически без задержек, Sequoia YC вложила в это деньги

2024-08-16

Самый быстрый в истории диалоговый видеоИИ уже здесь!Задержка менее одной секунды！

Непрерывно вы можете слушать, видеть, говорить и иметь изображения.

Этот продукт не принадлежит таким компаниям, как OpenAI или HeyGen, которые уже продемонстрировали свои возможности ранее, и у него нет конкретного названия.

Потому что это исходит от предпринимательской командыТавус, поэтому Тавус также называет его диалоговыми репликами.

Основная функция — создание захватывающего видео, созданного искусственным интеллектом.

После сегодняшнего запуска он занял первое место в списке горячих новинок Producthunt, и количество лайков продолжает расти.

Официальный представитель Tavus кратко описывает характеристики продукта для всех:

Задержка менее одной секунды
Реалистичный интеллектуальный цифровой двойник
Комплексные строительные блоки Plug-and-Play
Модульные настраиваемые компоненты, такие как синтез речи LLM.

Пользователи сети были рады видеть:

Хорошо, теперь есть «кто-то», кто проведет для меня видеоконференцию ZOOM, хахахаха!

Многие пользователи сети также считают этоЛучший интерфейс взаимодействия человека с компьютером, чем чтение документов или общение в чате.。

Этот диалоговый видеоинтерфейс меняет правила игры!
Я уже могу представить безграничные возможности для захватывающих впечатлений.

Вы можете попробовать это в Интернете в течение 2 минут.

Увидев это сообщение, Кубит в одну секунду бросился на официальный сайт Тавуса.

На официальном сайте вы можете онлайн просмотреть двухминутное «видео самого быстрого разговора в истории».

Согласно существующим настройкам,Партнером по разговору во время опыта был Картер, которого создал Тавус.。

Картер позиционируется как сотрудник Tavus, компании, занимающейся исследованием видео в области искусственного интеллекта, который отвечает с юмором и всегда готов помочь.

Это мужчина внизу:

Хотя Картер и является аватаром, видеочат с ним похож на видеочат с собственными друзьями.

Чиновники рекомендуют после авторизации камеры и микрофона стараться оставаться в тихой комнате во время общения с Картером.

Картер упомянул в ходе разговора, что некоторые из тем, которые люди любят обсуждать с ним больше всего, помимо вопросов о технологии искусственного интеллекта, используемой Тавусом, - это делиться своими повседневными мыслями и рассказывать анекдоты.

Он тут же рассказал анекдот:

Спросите, почему велосипед не может стоять сам по себе?
Ответ: потому что он слишком устал (Две шины).

Закончив говорить, Картер сам подбодрил себя и дважды рассмеялся.

Я также испытал кубит в течение 2 минут, и мои общие впечатления таковы:

Во-первых, ТавусСкорость ответа действительно быстрая, что соответствует официальному заявлению «в течение одной секунды».

Даже если вы вдруг издадите звук, пока он говорит, Картер немедленно остановится и выслушает ваше последнее высказывание.

Во-вторых, хотя официально утверждается, что он поддерживает более 30 языков, независимо от того, задаете ли вы вопросы на китайском или английском, он всегда отвечает на вопросы.Не могу говорить по-китайски。

Когда мы спрашивали его: «Можем ли мы говорить по-китайски», Картер отвечал: «Я бы предпочел говорить по-английски!»

В-третьих, ИИ ТавусаВы действительно можете «видеть своими глазами»。

Во время испытания кубита я в какой-то момент смутился и не знал, что спросить, поэтому мог только хихикать.

Картер сразу же сказал:

Ой! Ты показал мне улыбку~

В-четвертых, в демо-версии КартераФорма рта и произносимые слова могут быть почти полностью синхронизированы.。

Неудивительно, почему некоторые пользователи сети сказали после того, как попробовали это:

Он действительно впечатляет: быстрое время отклика и отличные возможности генерации видео и звука.

Теперь просто зарегистрируйтесь, чтобы использовать искусственный интеллект для разговорного видео Тавуса.

В официальной версииКартер — не единственный персонаж ИИ, доступный для диалога.Есть мужчины и женщины, а настройки идентичности варьируются от продаж до жизненного руководства и т. д.

Фон чата также можно изменить по выбору пользователя, не ограничиваясь офисной сценой.

В то же время, такжеВозможность вручную вводить контекст для содержания разговора。

Можно сказать, что степень персонализации достаточно высока.

В настоящее время существует бесплатная версия и платная версия, соответствующие различным созданным правам и интересам.

Разработано на основе модели самоисследования.

За разговорным видеоИИ Tavus стоит модель Phoenix-2, самостоятельно разработанная командой Tavus.

Это комбинация 3D-моделей, управляемых звуком и текстом, и 2D-GAN, которые могут создавать реалистичные короткие видеоролики продолжительностью 1–2 минуты.

Процесс генерации условно можно разделить на следующие четыре этапа:

TTS (текст в речь) – 3D-реконструкция головы и плеч – Анимация лица на основе текстового сценария – Высококачественная визуализация.

△Точная настройка геометрических деталей лица посредством дифференциального рендеринга.

Чтобы сделать изображение ИИ, которое разговаривает с пользователем, более реалистичным, команда Tavus построила конвейер рендеринга видео «Феникс-2»,Комбинированное GAN и 3D-гауссово разбрызгивание.

Причина этого в том, что традиционные GAN обычно ограничены разрешением изображения, тогда как объемным моделям всегда не хватает временной согласованности.

Поэтому Тавус подумал об объединении этих двух вещей.

Обучение GAN требует больших наборов данных и дорогостоящих вычислительных ресурсов, а из-за его двумерного характера и проблем с временной согласованностью время вывода и качество видео обычно ограничены.

Тавус использует 3D-модели в качестве «промежуточных звеньев» для достижения скорости рендеринга более 100 кадров в секунду и достижения более высокой степени управляемости и универсальности из-за ограничений физического восприятия динамических объектов.

△Сравните различия между 2D и 3D моделями говорящей головы.

Кроме того, улучшение модели «Феникс-2» по сравнению с предыдущей серией заключается в том, что она заменяет NeRF модели «Феникс» первого поколения.

Обращаясь к 3D Gaussian Splashing, мы научимся управлять динамической деформацией лица в 3D-пространстве и использовать эту информацию для рендеринга изображений на основе невидимого звука.

Члены команды заявили, что по сравнению с NeRF, 3D Gaussian Splash работает лучше с точки зрения данных, памяти, вычислительной сложности, процесса и эффективности рендеринга.

Конвейер модели Феникс-2, основанный на 3D-гауссовом разбрызгивании, может обучаться на 70 % быстрее, чем исходная модель, и рендериться со скоростью 60+ кадров в секунду.

Тавус сказал:Во время разговора предусмотрена функция обнаружения конца хода и возможность прерывания, что делает разговор более реальным для пользователя.

Кроме того, поскольку информация о лице очень конфиденциальна, команда обеспечивает проверки безопасности, протоколы безопасности, автоматическую модерацию контента и проверки на предмет галлюцинаций для защиты информационной безопасности.

Стоит отметить, что модели серии Phoenix поддерживают и другой продукт Tavus –

Создавайте видео разговоров цифровых двойников пользователей.

Вам нужно всего лишь предоставить 2 минуты материала и потратить 1 доллар (начальный) на вызов API для создания видеоконтента.

Официальный совет может предоставить комплексное решение со следующими возможностями:

Используйте API для создания безопасных и реальных цифровых двойников или агентов искусственного интеллекта.
Настройте LLM, персонажей диалогов и фон
Транслируйте разговоры во встроенных конференц-залах
Записывайте, расшифровывайте и делитесь разговорами
Обработка большого трафика с помощью масштабируемости производственного уровня

«Если у тебя нет <1, ты больше не человек».

Команда Tavus — это небольшой по масштабам стартап в области искусственного интеллекта, созданный четыре года назад.

Большинство участников представляют Amazon, Descript, Google, Apple и т. д.

Публичная информация показывает, что по состоянию на март этого года компания получила инвестиции серии A от Sequoia, Scale VC и YC на сумму около 18 миллионов долларов США.

Назван сооснователь и генеральный директор TavusХассан Раза。

Работал в Google и Apple.

Соучредитель и главный операционный директор компании оставил сообщение на Producthunt, в котором говорится, что производство диалогового видео с искусственным интеллектом заняло много времени: на исследования, проектирование и строительство было потрачено около тысяч часов.

А почему нам следует добиваться задержки в 1 секунду или меньше?

Официальный ответ также дан вМаксимально точно имитируйте видеоразговоры между людьми.：

Потому что если скорость реакции не менее 1 секунды, то (человек, болтающий с вами на другой стороне) не человек.

Справочные ссылки:
[1]https://www.tavus.io/careers
[2]https://x.com/heytavus/status/1824075891271749903
[3]https://www.producthunt.com/posts/conversational-replicas-by-tavus

новости

У «Её» есть образ! Совершайте видеозвонки ИИ практически без задержек, Sequoia YC вложила в это деньги

Вы можете попробовать это в Интернете в течение 2 минут.

Разработано на основе модели самоисследования.

«Если у тебя нет <1, ты больше не человек».

Введение

Моя контактная информация

новости

У «Её» есть образ! Совершайте видеозвонки ИИ практически без задержек, Sequoia YC вложила в это деньги

Вы можете попробовать это в Интернете в течение 2 минут.

Разработано на основе модели самоисследования.

«Если у тебя нет &lt;1, ты больше не человек».

Введение

Моя контактная информация

«Если у тебя нет <1, ты больше не человек».