notícias

Meta lança Llama 3.1, o modelo de código aberto mais forte, Zuckerberg: será um ponto de viragem para a indústria

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Na noite de 23 de julho, horário de Pequim, a Meta lançou oficialmente o mais recente modelo grande de código aberto da série Llama 3.1, estreitando ainda mais a lacuna entre os modelos de código aberto e os modelos de código fechado. O Llama 3.1 inclui 3 tamanhos de parâmetros de 8B, 70B e 450B. O modelo de parâmetros 450B ultrapassou o GPT-4o da OpenAI em vários testes de benchmark e é comparável aos principais modelos de código fechado, como Claude 3.5 Sonnet.


O fundador e CEO da Meta, Zuckerberg, postou um blog no site oficial ao mesmo tempo para criar impulso para este lançamento. Ele disse que a versão Llama 3.1 se tornará um ponto de viragem na indústria. fonte AI é a direção do desenvolvimento.

O cientista pesquisador sênior da Nvidia, Jim Fan, postou uma mensagem no X para parabenizar a equipe Meta. Ele mencionou: "O poder do GPT-4 está em nossas mãos. (Este é) um momento verdadeiramente histórico."

Em termos de detalhes específicos, a janela de contexto do modelo das três versões do Llama 3.1 aumentou de 8k para 128K, expandida 16 vezes e suporta 8 idiomas ao mesmo tempo. O modelo Llama 3.1 -405B utilizou mais de 15 trilhões de tokens para treinamento e, para atingir essa escala de treinamento, a equipe utilizou 16.000 GPUs H100. Oficialmente, o modelo 405B é o primeiro modelo Llama treinado nesta escala.

Os modelos de grande linguagem de código aberto ficam, em sua maioria, atrás dos modelos de código fechado em termos de funcionalidade e desempenho, “mas agora estamos entrando em uma nova era liderada pelo código aberto”.

No blog oficial, Meta avaliou o desempenho de mais de 150 conjuntos de dados de benchmark e comparou o desempenho do Llama 3.1 com outros modelos. O modelo carro-chefe Llama 3.1 -405B pode competir com o GPT em uma série de tarefas como bom senso, operabilidade, e matemática -4, GPT-4o é comparável ao Soneto Claude 3.5. Além disso, os modelos pequenos 8B e 70B são competitivos com modelos de código fechado e de código aberto com números semelhantes de parâmetros.


Em cenários da vida real, o Llama 3.1 405B foi comparado com a avaliação humana e seu desempenho geral foi melhor que o GPT-4o e o Claude 3.5 Sonnet.


Desta vez, a Meta também atualizou a licença de código aberto, permitindo que os desenvolvedores usem a saída do modelo Llama (incluindo 405B) pela primeira vez para melhorar outros modelos. Comparando o GPT-4o, as autoridades disseram que também usarão um método combinado para integrar funções de imagem, vídeo e voz no Llama 3, para que o modelo possa reconhecer imagens e vídeos e suportar interação por voz. No entanto, esse recurso ainda está em desenvolvimento e ainda não está pronto para lançamento.

No blog oficial, Meta disse que o total de downloads de todas as versões do Llama até agora ultrapassou 300 milhões de vezes.

Além deste lançamento do modelo, Zuckerberg também publicou um longo artigo "Open Source AI Is the Path Forward" no site oficial, que mencionou a importância do código aberto. Ele acredita que o código aberto é benéfico para todos os desenvolvedores, para o Meta e para o Meta. para o mundo é uma coisa boa.


Zuckerberg citou como exemplo a vitória do sistema de código aberto Linux sobre o sistema de código fechado Unix e acredita que a inteligência artificial se desenvolverá de maneira semelhante. “Existem várias empresas de tecnologia desenvolvendo modelos fechados líderes, mas o código aberto está rapidamente fechando a lacuna.” Ele mencionou que no ano passado, o Llama 2 só poderia ser comparado com o modelo da geração mais antiga. E este ano, o Llama 3 é competitivo em algumas áreas e até à frente dos modelos mais avançados em algumas áreas.

Zuckerberg acredita que o código aberto pode promover a inovação, reduzir custos e melhorar a segurança. Para os desenvolvedores, aproveitar o código aberto permite treinar, ajustar e destilar seus próprios modelos. Cada organização tem necessidades diferentes, e essas necessidades são melhor atendidas usando modelos de tamanhos diferentes que são treinados ou ajustados em dados específicos. de.

Ao mesmo tempo, os desenvolvedores não estão presos a fornecedores fechados para proteger a segurança dos dados. “O software de código aberto tende a ser mais seguro porque seu desenvolvimento é mais transparente e pode ser amplamente revisado.”, acredita Zuckerberg.

Zuckerberg também mencionou que o modelo de código aberto é mais barato e mais eficiente. Os desenvolvedores podem executar inferências no Llama 3.1 405B em sua própria infraestrutura a um custo de cerca de 50% em comparação com o uso de um modelo fechado como o GPT-4o%, adequado para interface de usuário. e tarefas de inferência offline.

“A inteligência artificial de código aberto representa a melhor oportunidade do mundo.” Na opinião de Zuckerberg, o uso desta tecnologia pode criar as maiores oportunidades económicas e de segurança.