новости

«Первая китайская модель, способная догнать голосовые возможности GPT-4o», модель голосового искусственного интеллекта Xinchen Lingo открыта для внутреннего тестирования.

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

24 августа IT House сообщил, что компания Xihu Xinchen, инвестируемая Jinke Tomcat, запустила крупную голосовую модель Xinchen Lingo в августе этого года. Это первая полномасштабная голосовая модель в Китае. Она была запущена сегодня (24 августа). Запись на открытое бета-тестирование.

В объявлении, опубликованном 21 августа, в официальном представлении говорилось, что по сравнению с традиционным TTS, большая модель сквозной передачи голоса представляет собой более комплексную технологию.Он не только поддерживает распознавание речи, но также объединяет множество связей, таких как обработка естественного языка, распознавание намерений, управление диалогами и синтез речи, реализуя полный процесс взаимодействия от речевого ввода до речевой обратной связи, что значительно обогащает глубину и широту человеческого общения. взаимодействие с компьютером.

Ссылаясь на официальный пресс-релиз, IT Home заявила, что голосовая модель Xinchen Lingo является первой моделью в Китае, которая может догнать голосовые возможности GPT-4o. Она имеет следующие три важные особенности с точки зрения технических возможностей:

Понимание родной речи:Будучи комплексной моделью, Xinchen Lingo может не только распознавать текстовую информацию в речи, но и точно улавливать другие важные характеристики, такие как эмоции, тон, высота звука и даже звуки окружающей среды, помогая модели более полно понимать содержание речи. , тем самым обеспечивая более естественный и яркий интерактивный опыт.

Несколько выражений голосового стиля:Xinchen Lingo может адаптивно регулировать скорость, высоту и интенсивность шума речи в соответствии с контекстом и инструкциями пользователя, а также генерировать речевые ответы в различных стилях, таких как диалог, пение, перекрестные помехи и т. д., эффективно повышая гибкость модели в различных ситуациях. сценарии применения и адаптивность.

Модальное суперсжатие речи:Xinchen Lingo использует речевой кодек со степенью сжатия, в сотни раз превышающей степень сжатия, который может сжимать речь до чрезвычайно короткой длины, что значительно снижает затраты на вычисления и хранение, одновременно помогая модели генерировать высококачественный речевой контент.