notícias

O spot GPT-4o se transforma em futuros, o que está impedindo o OpenAI?

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


A tecnologia RTC é uma das chaves para a popularidade da IA ​​em tempo real.


Autor | raio
editar|

Ela está passando do cinema para a realidade.

Em maio deste ano, a OpenAI lançou o mais recente modelo grande multimodal de IA GPT-4o. Comparado com o GPT-4 Turbo anterior, o GPT-4o é duas vezes mais rápido e custa metade do custo. O atraso médio da interação de voz AI em tempo real é de 2,8 segundos (GPT-3,5) a 5,4 segundos (GPT) em comparação com a versão anterior. . -4), chegando até a 320 milissegundos – quase a mesma que a velocidade de resposta do diálogo humano diário.

Além de melhorar a eficiência, a análise emocional nas conversas também se tornou um dos recursos desta atualização de produto. Durante a conversa com o anfitrião, a IA pode ouvir o “nervosismo” quando ele falou e fez sugestões direcionadas para respirar fundo.

IA aberta, está se tornando o “criador” baseado em silício na era dos grandes modelos.

No entanto, a conferência de imprensa foi chocante, mas a realidade era muito tênue. Após o lançamento do produto, OpenAI, o iniciador desta revolução tecnológica de grandes modelos, está gradualmente se tornando uma empresa de "futuros".

Após o lançamento do GPT-4o completo e de baixa latência, o lançamento da função de áudio e vídeo em tempo real ainda está atrasado;

Mas isso não é um problema apenas para a OpenAI como empresa - após o lançamento do ChatGPT, surgiram tantas versões domésticas do ChatGPT quanto carpas cruzando o rio. No entanto, atualmente existe apenas um SenseTime 5.5 que realmente faz referência ao GPT-4o. , e o progresso é o mesmo. Permaneça na versão beta aberta dentro de um mês.

Porque é que, na conferência de imprensa, o grande modelo multimodal em tempo real está apenas a um passo de mudar o mundo, mas no processo de avançar efectivamente para a produção, passa sempre de “ponto” para “opção”?

Uma nova voz está a surgir: num mundo multimodal, talvez a violência (algorítmica) não tenha milagres.

01

voz em tempo real,uma pedaço

Deve passardeRota de comercialização de IA

A maturidade da tecnologia está a ajudar a tomar forma gradualmente uma nova indústria do oceano azul.

Dados da a16z, uma conhecida instituição de capital de risco no Vale do Silício, mostram que entre as 50 principais aplicações de IA com usuários globais, 9 são produtos complementares. Os dados da lista de produtos de IA mostram que o número de visitas ao AI Companion em maio deste ano atingiu 432 milhões, um aumento anual de 13,87%.

A alta demanda, a alta taxa de crescimento, o grande espaço de mercado e a companhia da IA ​​trarão mudanças duplas nos modelos de negócios e na interação humano-computador.

A maturidade dos negócios também está forçando o progresso contínuo da tecnologia ao contrário.Considerando apenas o primeiro semestre deste ano como um nó, a tecnologia de voz de IA em tempo real já passou por três iterações em apenas seis meses.

O produto representativo da primeira onda de tecnologia é o Pi.

Em março deste ano, a start-up Inflection AI atualizou seu chatbot emocional Pi para usuários individuais.

A interface do produto Pi é muito simples. A caixa de diálogo Texto + é a interface interativa principal, mas também adiciona funções de voz de IA, como leitura de voz e chamadas telefônicas.

Para alcançar esse tipo de interação de voz, Pi conta com a tradicional tecnologia de voz de três etapas do STT (Reconhecimento de fala, fala para texto) - LLM (Análise semântica de modelo grande) - TTS (Texto para fala). É caracterizado por tecnologia madura, mas com resposta lenta, falta de compreensão de informações importantes, como tom, e incapacidade de alcançar um verdadeiro diálogo de voz em tempo real.

Outro produto em destaque do mesmo período é Call Annie. Comparado com Pi, Call Annie possui um design completo de experiência de videochamada. Além do design de atender e desligar chamadas, a função obediente também pode ser minimizada e alternada para outros aplicativos e suporta mais de 40 configurações de função de conversação.

No entanto, todos eles compartilham problemas técnicos comuns – alta latência e falta de cor emocional. Em termos de latência, mesmo o OpenAI mais avançado do setor sofrerá um atraso de 2,8 segundos (GPT-3,5) a 5,4 segundos (GPT-4).Emocionalmente, informações como tom, tom e velocidade de fala serão perdidas durante a interação e será impossível produzir expressões de fala avançadas, como risos e canto.

Depois disso, o representante da nova onda de tecnologia foi um produto denominado EVI.

Este produto foi lançado pela Hume AI em abril deste ano e rendeu à Hume AI US$ 50 milhões (aproximadamente 362 milhões de yuans) em financiamento da Série B.

Em termos de design de produto, Hume AI lançou uma função de playground no algoritmo subjacente. Os usuários podem escolher suas próprias configurações e modelos grandes, além do padrão oficial, também podem escolher Claude, GPT-4 Turbo, etc.Mas a diferença é que a voz carrega emoção, por isso também há mudanças no ritmo e na entonação na expressão.

A realização desta função depende principalmente da adição do novo algoritmo SST (teoria do espaço semântico, teoria do espaço semântico) ao processo tradicional de três etapas STT-LLM-TTS. O SST pode desenhar com precisão todo o espectro das emoções humanas através de uma extensa recolha de dados e modelos estatísticos avançados, revelando a continuidade entre os estados emocionais humanos, dando ao EVI muitas características antropomórficas.

O preço do progresso emocional é o sacrifício adicional do atraso no tempo, o tempo que o usuário precisa esperar para falar com o EVI aumenta ainda mais em comparação com Pi e Call Annie.

Em meados de maio, o GPT-4o foi lançado e a integração da tecnologia multimodal tornou-se a direção técnica deste período.

Comparado aos produtos anteriores de interação por voz em três etapas, o GPT-4o é um novo modelo treinado de ponta a ponta em texto, imagens e áudio, o que significa que todas as entradas e saídas são processadas pela mesma rede neural.

O problema de atraso também foi bastante melhorado. A OpenAI anunciou oficialmente que a interação de voz em tempo real do GPT-4o pode responder à entrada de áudio com uma velocidade mais rápida de 232 milissegundos e uma média de 320 milissegundos. Emocionalmente, a interação entre os utilizadores e a IA tornou-se cada vez mais inteligente, conseguindo-se alterações na velocidade da fala e na compreensão emocional.

No nível do produto, torna-se possível que os humanos se apaixonem pela IA e que a IA substitua as pessoas cegas na visão do mundo.

Character.ai, que lançou recentemente a função de chamada de voz e é uma nova estrela atraente no Vale do Silício em 2024, tornou-se o maior beneficiário desta onda tecnológica.

No Character.ai, os usuários têm a oportunidade de enviar mensagens de texto com réplicas de personagens de anime, personalidades da TV e figuras históricas em dramatizações ultra-realistas. A nova configuração provocou um aumento no número de usuários do produto. De acordo com dados da Similarweb, Character.ai pode lidar com 20.000 solicitações de inferência de IA por segundo, e o número de visitas em maio chegou a 277 milhões.


Comparação de tráfego entre Character.ai e perplexity.ai|Fonte da imagem: Similarweb

Ao mesmo tempo, Microsoft, Google e outros anunciaram oficialmente que seus grandes modelos lançarão funções de chamada de voz em tempo real.

No entanto, o design do produto à prova d'água, na implementação real, sempre mostra o efeito de implementação da descarga das enchentes das Três Gargantas - na terceira onda, os produtos companheiros quase "seu" na conferência de imprensa mudaram todos na implementação real. virou um “plano” de lançamento, será lançado em breve e está em testes internos.

Uma conclusão indubitável é que o áudio e o vídeo em tempo real podem se tornar a forma definitiva de interação humano-computador.IAAlém da cena complementar, espera-se que cenas como NPCs inteligentes de jogos, professores falados por IA e tradução em tempo real explodam. No entanto, antes disso, como resolver a última milha desde a “conferência de imprensa” até o lançamento do produto. é o problema mais difícil da indústria hoje.

02

Voz em tempo real de IA,

Não há milagres com grande força

IAVoz em tempo real "sem milagres com grandes esforços", um ditado pessimista está se espalhando silenciosamente no Vale do Silício.

A resistência vem de todos os aspectos da tecnologia, regulamentação e negócios.

O líder espiritual da oposição técnica é Yann LeCun, o “pai das redes convolucionais”.

Em sua opinião: em comparação com vários algoritmos de IA do passado, a maior característica da tecnologia de modelos grandes é que “grandes esforços podem produzir milagres”. Através da alimentação de big data, bem como do suporte de hardware de clusters computacionais com centenas de milhões de parâmetros e alto desempenho, algoritmos podem ser usados ​​para lidar com problemas mais complexos e alcançar maior escalabilidade. No entanto, estamos actualmente excessivamente optimistas em relação aos grandes modelos, especialmente a visão de que grandes modelos multimodais podem ser modelos mundiais, o que é ainda mais absurdo.

Por exemplo, as pessoas têm cinco sentidos, que formam a nossa verdadeira compreensão do mundo, que é treinado com base em uma grande quantidade de textos da Internet, carece de observação e interação com o mundo físico e carece de bom senso. Portanto, no processo de geração de vídeo ou voz, sempre haverá conteúdo aparentemente contínuo, trajetórias de movimento ou emoções de voz, mas falta de realismo. Além disso, as limitações físicas também são um problema. Diante do aumento do tamanho do modelo e das dimensões de interação, os grandes modelos atuais carecem de largura de banda suficiente para processar essas informações.

nível regulatório,IAA fala em tempo real, ou seja, o grande modelo de fala ponta a ponta, enfrenta um jogo entre tecnologia e ética.

No passado, o processo de três etapas do STT-LLM-TTS na indústria tradicional de voz de IA foi causado pela primeira vez por tecnologia imatura. A evolução para um grande modelo de voz de ponta a ponta requer implementação adicional em termos de arquitetura de modelo e métodos de treinamento. e interação multimodal. Ao mesmo tempo, como a voz em si é mais difícil de supervisionar do que o texto, a voz da IA ​​pode ser facilmente usada em cenários como fraude telefônica, pornografia e marketing de spam. Para facilitar a revisão, o link de texto intermediário também se tornou necessário até certo ponto.

E no nível empresarial, O treinamento completo de modelos grandes de áudio e vídeo requer uma grande quantidade de dados do YouTube e de podcast durante a fase de treinamento. O custo é dezenas de vezes ou até maior do que o dos modelos de treinamento de texto anteriores. milhões de dólares.

Quanto a esse tipo de custo, para as empresas comuns de IA neste momento, é inútil jogar dinheiro do céu. Elas também têm que pagar pelas placas de computação de IA de ponta da NVIDIA, armazenamento gigabit e direitos autorais de áudio e vídeo inesgotáveis ​​e livres de riscos. .

É claro que, seja o julgamento técnico de Yang Likun, possíveis dificuldades regulatórias ou o dilema do custo da comercialização, essas não são as questões centrais da IA ​​aberta.

Realmente torne a classe GPT-4o em tempo realIAA razão fundamental pela qual os produtos de interacção por voz mudaram de spot para futuros está ao nível da implementação do projecto.

03

GPT-4o para demonstração com cabo de rede conectado,

Ainda falta uma assistência RTC útil

Um segredo tácito na indústria é, classe GPT-4oIAOs produtos de voz em tempo real, no nível da engenharia, são apenas metade da batalha.

No lançamento do GPT-4o, embora tenha sido alegada baixa latência, alguns usuários mais atentos descobriram que o telefone celular no vídeo de demonstração ainda estava conectado a um cabo de rede.Isto também significa que o atraso médio de 320ms anunciado oficialmente pelo GPT-4o provavelmente será uma demonstração de equipamentos fixos, redes fixas e cenários fixos, e é um indicador de laboratório que pode ser alcançado em condições ideais.


A conferência de lançamento do GPT-4o da OpenAI mostra claramente que os telefones celulares estão conectados |

Onde está o problema?

Desmontando-o do nível técnico, para realizar chamadas de voz em tempo real de IA, as três etapas no nível do algoritmo são combinadas em uma, que é apenas um dos links principais. O outro link principal, nível de comunicação RTC, também enfrenta uma série. de desafios técnicos. O chamado RTC pode ser entendido simplesmente como a transmissão e interação de áudio e vídeo em um ambiente de rede em tempo real. É uma tecnologia que suporta voz em tempo real, vídeo em tempo real e outras interações.

Chen Ruofei, chefe de tecnologia de áudio da Agora, disse ao Geek Park que em cenários de aplicação reais, os usuários geralmente nem sempre podem estar em equipamentos fixos, redes fixas e ambientes físicos fixos. Em nossos cenários diários de videochamada, quando a rede de uma das partes é ruim, os atrasos e atrasos na fala aumentarão. Essa situação também ocorrerá em chamadas de voz em tempo real de IA, portanto, a transmissão de baixa latência e a excelente otimização da rede são cruciais para a transmissão RTC.

Além disso, a adaptação de vários dispositivos, o processamento de sinais de áudio, etc. também são aspectos técnicos que não podem ser ignorados na implementação de voz em tempo real de IA.

Como resolver esses problemas?

A resposta está nos mais recentes requisitos de recrutamento da OpenAI. A OpenAI mencionou especificamente que deseja recrutar talentos de engenharia para ajudá-los a implantar os modelos mais avançados no ambiente RTC.

Em termos de seleção de soluções específicas, a tecnologia RTC utilizada pelo GPT-4o é uma solução de código aberto baseada em WebRTC, que pode resolver certos atrasos a nível técnico, bem como perda de pacotes, segurança de conteúdo de comunicação e plataforma cruzada causada por diferentes ambientes de rede.

No entanto, o lado B do código aberto é a fraqueza da produtização.

Para dar um exemplo simples, no que diz respeito a questões de adaptação a vários dispositivos, os cenários de utilização do RTC são maioritariamente representados por telemóveis, mas as capacidades de comunicação e recolha de som de diferentes modelos de telemóveis variam amplamente: actualmente, os telemóveis Apple podem atingir um atraso estável de cerca de dezenas de milissegundos No entanto, o ecossistema Android, que é relativamente complexo, não só tem muitos modelos, mas a diferença de desempenho entre produtos de ponta e de baixo custo também é bastante óbvia. pode chegar a centenas de milissegundos nos níveis de coleta e comunicação.

Por outro exemplo, em cenários de aplicação de fala em tempo real de IA, os sinais de fala humana podem ser misturados com ruído de fundo. É necessário um processamento complexo de sinais para remover ruído e eco para garantir uma entrada de fala limpa e de alta qualidade, para que a IA possa compreender melhor as pessoas. . as palavras ditas.

Compatibilidade com vários dispositivos e recursos avançados de redução de ruído de áudio também são o que falta ao WebRTC de código aberto.

A experiência da indústria é um gargalo na aplicação de produtos de código aberto. Portanto, em comparação com soluções de código aberto, grandes fabricantes de modelos e fornecedores profissionais de soluções RTC trabalham juntos para aperfeiçoá-los e otimizá-los, o que, até certo ponto, pode representar melhor as tendências futuras da indústria.

Na área de RTC, Agora é o fabricante mais representativo. Era conhecido por fornecer tecnologia de áudio ao Clubhouse. De acordo com o site oficial da Agora, mais de 60% dos aplicativos pan-entretenimento do mundo escolhem o serviço RTC da Agora. além de empresas nacionais conhecidas Além de aplicativos como Xiaomi, Bilibili, Momo e Xiaohongshu, há também Yalla, a maior plataforma social e de entretenimento de voz do Oriente Médio e Norte da África, Kumu, o “Rei do Social Live Plataformas de transmissão” no Sudeste Asiático, HTC VIVE, The Meet Group, Bunch, etc. empresas bem conhecidas em todo o mundo adotaram a tecnologia RTC da Agora.


O acúmulo de experiência no setor e o aprimoramento de clientes globais são mais uma prova da liderança tecnológica. De acordo com Chen Ruofei, a rede de transmissão em tempo real SD-RTN™ desenvolvida pela própria Shengwang cobre mais de 200 países e regiões ao redor do mundo, e o atraso global de ponta a ponta de áudio e vídeo atinge uma média de 200 ms. Em resposta às flutuações no ambiente de rede, a tecnologia de roteamento inteligente e o algoritmo de rede anti-fraco do SoundNet podem garantir a estabilidade e a fluência das chamadas. Tendo em conta as diferenças nos equipamentos terminais, Shengwang acumulou centenas de milhões de aplicações pré-instaladas em todo o mundo e acumulou know-how na adaptação a ambientes complexos.

Além da liderança tecnológica, a experiência no setor é uma barreira invisível.

Na verdade, é por isso que o cenário empresarial da indústria de RTC tem sido relativamente estável ao longo dos anos:Para fazer um bom trabalho no RTC, nunca se baseou no modelo de grande escala de “grandes esforços podem produzir milagres”.

A única maneira de alcançar a otimização final do atraso de voz e o uso comercial universal da interação de voz em tempo real é através de um trabalho intensivo e acumulado ao longo do tempo.

E nesta perspectiva,IAA interação por voz em tempo real é uma batalha que não deve ser subestimada em termos de imaginação e dificuldade.

Seu futuro – algoritmos, auditorias e RTC devem passar por todos os níveis. Para completar este longo caminho, não devemos apenas olhar para o céu estrelado da tecnologia, mas também ter os pés no chão da engenharia.

*Fonte da imagem do cabeçalho: Visual China

Este artigo é um artigo original de Geek Park. Para reimpressão, entre em contato com Geek Jun no WeChat geekparkGO.

Geek perguntou

Quais aplicativos complementares de IA você usou?


O segredo do sucesso de Zuckerberg: não se deixe enganar pelos filmes, para começar, ninguém sabe como fazer isso.

Curta e sigaConta de vídeo do Geek Park