robin li expõe a ilusão de “pontuações contínuas” de grandes modelos: a lista não representa todos os pontos fortes e a lacuna entre os modelos se tornará maior no futuro

2024-09-12

sempre que uma nova versão de um modelo grande é lançada, a indústria está sempre disposta a citar dados de listas de terceiros, "executar uma pontuação" com seu próprio modelo grande em relação ao gpt-4 e afirmar ter ultrapassado certos indicadores. provar sua força técnica em modelos grandes.

mas em uma recente conversa entre o presidente do baidu, robin li, e funcionários internos, ele rompeu o "papel de janela" que impede o benchmarking na grande indústria de modelos. “cada vez que um novo modelo é lançado, ele deve ser comparado com o gpt-4o. diz-se que minha pontuação é quase igual a ele, e até supera em alguns itens individuais, mas isso não significa que não haja lacuna com os modelos mais avançados ".

ele explicou ainda que as lacunas entre os modelos são multidimensionais. uma dimensão é o aspecto da capacidade, seja a lacuna nas habilidades básicas, como capacidade de compreensão, capacidade de geração, capacidade de raciocínio lógico ou capacidade de memória, a outra dimensão é o aspecto do custo. alta e a velocidade de raciocínio é lenta, na verdade, ainda é inferior aos modelos avançados.

"há também o ajuste excessivo do conjunto de testes. todo modelo que quiser provar sua capacidade irá para os rankings. ao fazer os rankings, ele tem que adivinhar o que os outros estão testando e quais perguntas posso usar e quais técnicas posso usar. pode acertar, então, a julgar pela lista ou conjunto de testes, você acha que os recursos estão muito próximos, mas ainda há uma lacuna clara nas aplicações reais", disse robin li.

um grande praticante de modelos disse aos repórteres que o sobreajuste (sobreajuste) do conjunto de testes mencionado por robin li refere-se principalmente ao fato de que durante o processo de treinamento do modelo, o modelo aprende os dados de treinamento com muita precisão, de modo que o modelo falha para ter um bom desempenho nos dados de treinamento o desempenho é muito bom, mas o desempenho é ruim em dados de teste não vistos. isso geralmente significa que o modelo é tão complexo que é capaz de "lembrar" o ruído e os detalhes nos dados de treinamento, mas esses detalhes e ruídos não são gerais e, portanto, o modelo não generaliza bem para mais dados novos.

as pessoas acima mencionadas acreditam que existem de fato limitações na classificação e na execução das pontuações. por exemplo, devido à abertura do conjunto de dados de avaliação, o modelo pode ser treinado de forma direcionada para melhorar a classificação, resultando no fenômeno de ". deslizando a classificação". no entanto, não é completamente sem sentido. a classificação ainda é relativamente. ele fornece um padrão de avaliação quantitativa para ajudar as pessoas a compreender rapidamente o desempenho de diferentes modelos de grande porte, incentiva todos a otimizar continuamente o nível técnico de grandes modelos por meio da competição, e também desempenha um certo papel na publicidade e promoção.

na opinião de robin li, "parte do hype da mídia própria, juntamente com a motivação para publicidade quando cada novo modelo é lançado, dá a todos a impressão de que a diferença de capacidades entre os modelos é relativamente pequena. na verdade, este não é o caso . " robin li disse que, no uso real, o baidu não permite que o pessoal técnico faça classificações. a medição real das capacidades dos grandes modelos deve ser feita em cenários de aplicação específicos para ver se eles podem atender às necessidades do usuário e gerar ganhos de valor.

quanto aos “12 meses à frente ou 18 meses atrás” que são frequentemente mencionados na grande indústria de modelos, ele acha que não é tão importante. como toda empresa está em um ambiente de mercado totalmente competitivo, existem muitos concorrentes, independentemente da direção que tomem. "se você puder estar sempre 12 a 18 meses à frente de seus concorrentes, será invencível. não pense que 12 a 18 meses é um curto período de tempo. mesmo que você possa estar sempre 6 meses à frente de seus concorrentes, você vencerá. sua participação de mercado pode ser de 70%, enquanto seu oponente pode ter apenas 20% ou até 10%."

ele julgou que a lacuna entre os grandes modelos pode aumentar no futuro. como o limite máximo dos modelos grandes é muito alto, ainda está longe da situação ideal. portanto, o modelo precisa ser continuamente iterado, atualizado e atualizado rapidamente, e precisa ser capaz de investir continuamente por vários anos ou mais de dez anos; para atender continuamente às necessidades do usuário, reduzir custos e aumentar a eficiência.

além de discutir se existem barreiras à concorrência em grandes modelos, durante o intercâmbio, robin li também mencionou que existem alguns mal-entendidos sobre grandes modelos, incluindo tópicos como a eficiência de modelos de código aberto e de código fechado, e ia agente.

robin li é um defensor ferrenho dos grandes modelos de código fechado. "antes da era dos grandes modelos, todos estavam acostumados com o código aberto, o que significa que é gratuito e de baixo custo. ele explicou que, por exemplo, o linux de código aberto, porque os computadores já existem, então." linux é usado. é grátis. mas isso não é verdade na era dos modelos grandes. a inferência de modelos grandes é muito cara e os modelos de código aberto não fornecem poder de computação. você precisa comprar seu próprio equipamento, o que não pode atingir a utilização eficiente do poder de computação.

"o modelo de código aberto não é eficiente em termos de eficiência." ele disse: "para ser mais preciso, o modelo de código fechado deveria ser chamado de modelo de negócios. é uma forma de inúmeros usuários compartilharem custos de p&d, recursos de máquina e gpus para inferência. a eficiência de uso da gpu é a mais alta. artigo do baidu o uso da gpu dos modelos xinda 3.5 e 4.0 atingiu mais de 90%.

robin li analisou que em áreas como ensino e pesquisa científica, o modelo de código aberto é valioso, mas na área comercial, quando se busca eficiência, eficácia e menor custo, o modelo de código aberto não apresenta vantagens;

em relação à evolução da aplicação de grandes modelos, ele também expressou sua opinião. o primeiro é o copilot, que auxilia as pessoas, o próximo é a inteligência do agente, que possui certo grau de autonomia e pode usar ferramentas de forma independente, refletir e auto-evoluir; ; se este nível de automação se desenvolver ainda mais, ele se tornará um trabalhador de ia que poderá concluir todos os aspectos do trabalho de forma independente.

atualmente, os agentes inteligentes têm atraído cada vez mais a atenção de grandes empresas e clientes. robin li acredita que, embora muitas pessoas estejam otimistas sobre essa direção de desenvolvimento, até o momento, os agentes inteligentes não são um consenso.

"o limite para agentes inteligentes é realmente muito baixo." ele disse que muitas pessoas não sabem como transformar grandes modelos em aplicativos, e os agentes inteligentes são uma forma muito direta, eficiente e simples. agentes em cima de modelos.

(este artigo vem do china business news)

relatório/comentários

notícias

robin li expõe a ilusão de “pontuações contínuas” de grandes modelos: a lista não representa todos os pontos fortes e a lacuna entre os modelos se tornará maior no futuro

introdução

minhas informações de contato