O “Her” da OpenAI é difícil de entregar.

2024-07-27

Mengchen vem do Templo Aofei
Qubits | Conta pública QbitAI

Dois meses e duas semanas se passaram e ainda não vimos a versão lançada publicamente do OpenAI “Her”.

Em 14 de maio a OpenAI lançou o GPT-4o eModo de conversação de áudio e vídeo em tempo real de ponta a ponta, demonstração ao vivo do diálogo da IA tão suave quanto os seres humanos.

Ele pode sentir seu ritmo respiratório e responder em tempo real com um tom mais rico do que antes. Pode até interromper a IA a qualquer momento, e o efeito é incrível.

Mas como todos estão ansiosos por isso, de vez em quandoadiarsaiu a notícia.

O que está impedindo a OpenAI? De acordo com informações conhecidas:

terDisputas legais, para garantir que o timbre da voz não volte a causar polêmica como a da “irmã viúva” Scarlett Johansson.

Há tambémPergunta de segurança, precisam estar devidamente alinhados, e as conversas de áudio e vídeo em tempo real abrirão novos cenários de uso, e ser usado como ferramenta de fraude também será um deles.

Porém, além do acima exposto, existem problemas e dificuldades técnicas que precisam ser superados?

Após a excitação inicial, os especialistas começaram a olhar para a porta.

Internautas atentos devem ter notado,Durante a manifestação na conferência de imprensa, o telemóvel estava ligado a um cabo de rede.。

Aos olhos dos especialistas da indústria, a demonstração da conferência GPT-4o foi muito tranquila, mas ainda existem várias limitações:

precisar“Rede fixa, equipamento fixo, ambiente físico fixo”。

Depois de realmente lançado ao público, ainda não se sabe se os usuários globais poderão obter uma experiência que não seja comprometida em comparação com a coletiva de imprensa.

Houve outro detalhe interessante na coletiva de imprensa, o belo pesquisador Barret Zoph.ChatGPT foi usado como mesa ao demonstrar uma videochamada。

O atraso na parte da videochamada é óbvio.A parte de voz da pergunta foi processada e a parte visual ainda está processando a cena anterior., que é a mesa de madeira capturada pela câmera quando o telefone acabou de ser atendido.

Imagine quantas pessoas irão usá-lo depois que ele for finalmente lançado?

Um dos casos mais comentados do vídeo promocional, onde um cego acenou para um táxi com a ajuda da voz da IA, foi imediatamente comentado pelos internautas.

Contudo, importa também referir que este será umCenários que dependem fortemente de recursos de baixa latência, se a orientação da IA vier um pouco mais lenta, o táxi passará.

O sinal de rede em cenas externas pode não ter garantia de estabilidade, sem falar em cenas como aeroportos, estações de trem e atrações turísticas onde há muitas pessoas e dispositivos ocupando largura de banda, então a dificuldade aumentará muito.

também,Também haverá problemas de ruído em cenas externas。

Modelos grandes são inerentemente preocupados com o problema da "ilusão". Se o ruído afetar o reconhecimento da voz do usuário e aparecerem algumas palavras não relacionadas às instruções, a resposta não será clara.

Finalmente, há outra questão que é facilmente esquecida,Adaptação para vários dispositivos。

Pode-se ver que a atual conferência OpenAI e os vídeos promocionais usam o novo iPhone Pro.

Se a mesma experiência pode ser obtida em modelos de baixo custo, será necessário esperar até o lançamento oficial.

OpenAI promove que GPT-4o pode ser usado emTão curto quanto 232 milissegundos, média de 320 milissegundosresponder à entrada de áudio em um tempo consistente com a rapidez com que os humanos respondem em uma conversa.

Mas este é apenas o tempo entre a entrada e a saída do modelo grande, não de todo o sistema.

Resumindo, apenas fazendo um bom trabalho em IA, ainda não é possível criar uma experiência tranquila como "Ela". Também requer uma série de recursos, como baixa latência, adaptação a vários dispositivos e capacidade de lidar com eles. várias condições de rede e ambientes ruidosos.

A IA sozinha não pode fazer “Ela”

Para obter baixa latência, adaptação a vários dispositivos, etc., contamos comRTC(Comunicações em Tempo Real, Comunicações em Tempo Real).

Antes da era da IA, a tecnologia RTC era amplamente utilizada em transmissões ao vivo, videoconferências e outros cenários, e seu desenvolvimento era relativamente maduro.

Do ponto de vista do RTC, as palavras do prompt de voz do usuário precisam passar por um conjunto de processos complexos antes de serem inseridas no modelo grande.

Aquisição e pré-processamento de sinal:Em dispositivos finais, como telefones celulares, a voz do usuário é coletada em sinais originais e processada como redução de ruído e eliminação de eco para preparar o reconhecimento subsequente.

Codificação e compressão de fala: Para economizar ao máximo a largura de banda de transmissão, o sinal de voz deve ser codificado e compactado. Ao mesmo tempo, alguns mecanismos de redundância e correção de erros devem ser adicionados de forma adaptativa de acordo com as condições reais da rede para resistir à perda de pacotes da rede.

transmissão de rede: Os dados de voz compactados são divididos em pacotes de dados e enviados para a nuvem pela Internet. Se a distância física do servidor for longa, a transmissão muitas vezes terá que passar por vários nós, e cada salto poderá introduzir atraso e perda de pacotes.

Decodificação e restauração de voz:Depois que o pacote de dados chega ao servidor, o sistema o decodifica e restaura o sinal de voz original.

Finalmente, foi a vez da IA agir.Somente convertendo primeiro o sinal de fala em tokens por meio do modelo de incorporação o grande modelo multimodal de ponta a ponta será capaz de compreender e gerar respostas.

É claro que, depois que o modelo grande gera uma resposta, ele precisa passar por um conjunto de processos inversos e, então, o sinal de áudio da resposta é finalmente transmitido de volta ao usuário.

Cada etapa de todo o processo requer otimização extrema para realmente alcançar diálogos de áudio e vídeo de IA em tempo real.

Entre eles, a compressão, a quantização e outros métodos do próprio modelo grande afetarão, afinal, as capacidades da IA, portanto, a otimização conjunta combinada com fatores como processamento de sinal de áudio e perda de pacotes de rede é particularmente importante.

Entende-se que a OpenAI não resolveu este problema de forma independente, mas optou por cooperar com terceiros.

Os parceiros sãoFornecedor de RTC de código aberto LiveKit, atualmente se tornando o foco da indústria com suporte ao modo de voz ChatGPT.

Além do OpenAI, o LiveKit também cooperou com empresas de IA relacionadas, como Character.ai e ElevenLabs.

Talvez com exceção de alguns gigantes como o Google, que possuem tecnologia RTC autodesenvolvida relativamente madura,Cooperar com fabricantes de RTC especializados no setor é a escolha atual para reprodutores de diálogo de áudio e vídeo em tempo real com IA.。

É claro que esta onda também envolve a participação de atores nacionais. Muitas empresas nacionais de IA já estão intensificando o desenvolvimento de grandes modelos multimodais de ponta a ponta e de aplicações de diálogo de áudio e vídeo em tempo real.

Os aplicativos domésticos de IA podem acompanhar os resultados do OpenAI e quando todos poderão realmente experimentar isso por si mesmos?

Dado que estes projectos estão basicamente nas fases iniciais, pouca informação foi divulgada publicamente, mas os seus parceiros do RTCrede de somTornou-se um avanço.

Qubit perguntou à Sound Network,Com o actual nível tecnológico nacional, o atraso de uma ronda de diálogo pode ser reduzido para cerca de 1 segundo., juntamente com mais técnicas de otimização, não é mais um problema conseguir conversas tranquilas que possam responder em tempo hábil.

Para fazer bem o RTC, a IA não é apenas “Ela”

Quem é SoundNet?

Uma empresa representativa no setor de RTC, tornando-se o primeiro provedor global de serviços de nuvem interativos em tempo real em 2020.

A primeira vez que a SoundNet saiu do setor foi porque forneceu suporte técnico para o Clubhouse, um aplicativo social de áudio de grande sucesso.

Na verdade, muitas aplicações conhecidas, como Bilibili, Xiaomi e Xiaohongshu, escolheram a solução RTC da Agora, e os negócios no exterior também se desenvolveram rapidamente nos últimos anos.

Portanto, para aplicações de diálogo de áudio e vídeo em tempo real com IA, como resolver especificamente as dificuldades de baixa latência e adaptação a vários dispositivos, e quais efeitos podem ser alcançados?

Nós convidamosZhong Sheng, cientista-chefe e CTO da Shengwangpara responder a esta pergunta.

De acordo com Zhong Sheng, a inferência de modelos grandes não é calculada;Basta dizer que o tempo que um sinal leva para ir e voltar em uma linha de rede já pode ser de 70 a 300 milissegundos.。

Especificamente, focamos principalmente na otimização a partir de três aspectos.

primeiro,Shengwang construiu mais de 200 data centers em todo o mundo, e os locais escolhidos para estabelecer conexões são sempre os mais próximos dos usuários finais.

Combinado com a tecnologia de roteamento inteligente, quando uma determinada linha está congestionada, o sistema pode selecionar automaticamente outros caminhos com melhor atraso e largura de banda para garantir a qualidade da comunicação.

Se a transmissão entre regiões não estiver envolvida, o tempo de ponta a ponta pode ser inferior a 100 ms. Se incluir regiões cruzadas, como da China aos Estados Unidos, é mais provável que leve de 200 a 300 ms.

segundo, Shengwang, fundada em 2014, está analisando vários cenários de redes fracas por meio de mineração de dados com base na enorme quantidade de dados de cenas reais acumulados ao longo dos anos e, em seguida, reproduzindo-os em laboratório. Isso fornece um "alcance de disparo" para otimizar o algoritmo de transmissão para que ele possa lidar com ambientes de rede complexos e mutáveis; ele também pode fazer ajustes oportunos na estratégia de transmissão quando um modo de rede fraco correspondente ocorre durante a transmissão em tempo real; mais suave.

terceiro, Para indústrias verticais e tarefas específicas, Shengwang também está tentando personalizar modelos com parâmetros menores para comprimir o tempo de resposta de modelos grandes. As capacidades extremas de grandes modelos de linguagem e modelos de fala de um tamanho específico são direções que vale a pena explorar, que são fundamentais para otimizar a relação custo-benefício e a experiência de baixa latência da IA conversacional ou chatbots.

afinal, O RTC SDK desenvolvido por Shengwang também é adaptado e otimizado para diferentes dispositivos terminais, especialmente para alguns modelos de baixo custo, que podem atingir baixo consumo de energia, baixo uso de memória, tamanho de pacote extremamente pequeno, etc. Em particular, os recursos do dispositivo de redução de ruído de voz, cancelamento de eco e melhoria da qualidade de vídeo com base em algoritmos de IA podem afetar diretamente o escopo e o efeito do chatbot de IA.

Zhongsheng também introduziu que, no processo de exploração da combinação de RTC e tecnologia de modelos grandes, o escopo da própria tecnologia RTC também está mudando.

Ele citou algumas de suas direções de pensamento, como a mudança da transmissão de sinais de áudio para a transmissão de tokens que podem ser compreendidos diretamente por grandes modelos, e até mesmo a implementação de fala para texto (STT) e reconhecimento de emoção no final, para que apenas texto e informações relacionadas podem ser transmitidas.

Desta forma, mais processos de processamento de sinal podem ser colocados no lado final, e o modelo Embeding que requer menos poder computacional pode ser colocado mais próximo do usuário, reduzindo os requisitos de largura de banda de todo o processo e o custo do modelo de nuvem.

A partir deste ponto, Zhong Sheng acredita que a combinação final da tecnologia AI e RTC avançará para a integração de dispositivos e nuvens.

Ou seja, você não pode confiar totalmente em modelos grandes na nuvem. Esta não é a melhor escolha em termos de custo, consumo de energia e experiência de latência.

Do ponto de vista da integração final na nuvem, toda a infraestrutura precisa mudar de acordo. O poder computacional não está apenas na nuvem, mas também o poder computacional dos telefones celulares será usado. Os nós de transmissão na borda também distribuirão o poder de computação, e o protocolo de transmissão de dados também mudará de acordo...

Atualmente, a Agora e os grandes fabricantes de aplicativos de modelos descobriram comoTrês modelos de cooperação, ou seja, os diferentes métodos de fornecimento das três partes de todo o sistema: modelo grande, RTC e servidor em nuvem:

Implantação privada:Shengwang fornece apenas RTC SDK, que é implantado junto com grandes modelos nos próprios data centers dos parceiros. É adequado para empresas com grandes modelos autodesenvolvidos ou grande infraestrutura de inferência de modelos.
Plataforma de nuvem Shengwang: Shengwang fornece SDK RTC e recursos de servidor em nuvem, e os desenvolvedores podem selecionar modelos, locais de implantação e recursos de computação com flexibilidade de acordo com suas necessidades. Não há necessidade de construir sua própria infraestrutura e você pode criar rapidamente aplicativos de voz de IA.
Agora solução ponta a ponta: Shengwang fornece grandes modelos autodesenvolvidos, RTC SDK e recursos de servidor em nuvem. Os modelos verticais podem ser personalizados para setores segmentados, como educação, comércio eletrônico, entretenimento social, atendimento ao cliente, etc., e estão profundamente integrados aos recursos do RTC para fornecer soluções integradas de interação por voz.

Além disso, nos projetos de cooperação existentes, a aplicação mais rápida não está longe de atender a todos.

Na comunicação com a Acoustic Network, há outra nova tendência na descoberta de qubits que merece atenção:

As aplicações domésticas de IA estão gradualmente indo além do escopo das perguntas e respostas do assistente de IA e da companhia emocional da IA.

Vejamos setores como entretenimento social, transmissão ao vivo de comércio eletrônico e educação on-line. O que todos prestam mais atenção são âncoras de celebridades da Internet e professores famosos. Pessoas digitais impulsionadas pelo diálogo de áudio e vídeo em tempo real da IA podem se tornar seus “clones digitais” e interagir ainda mais individualmente com cada fã ou aluno. Ao mesmo tempo, o tempo e a energia do próprio usuário também são limitados, e eles não têm habilidades para se dividir em múltiplas tarefas, e também precisam de seus próprios clones de IA. Com o desenvolvimento da tecnologia, a melhoria da experiência da tecnologia de avatar de IA e a redução de custos, o seu âmbito de aplicação irá expandir-se cada vez mais.

Tomemos as palavras de Zhong Sheng: “A coisa mais escassa para os seres humanos é o tempo”:

Todos nós devemos ter esta experiência. E se duas reuniões entrarem em conflito e só pudermos participar de uma?

Você mesmo pode participar de um e enviar um assistente de IA para outro evento para trazer informações interessantes. No futuro, este assistente pode até ser o seu próprio avatar de IA. Durante a atividade, você poderá realizar comunicações personalizadas, fazer ou responder diversas perguntas com base em seus próprios interesses e preocupações e interagir com outras pessoas ou com os avatares de outras pessoas.

Portanto, o diálogo de áudio e vídeo em tempo real da IA pode fazer muito mais do que apenas "Ela".

notícias

O “Her” da OpenAI é difícil de entregar.

Introdução

minhas informações de contato