notícias

Na grande indústria de modelos, não existe código aberto “real”?

2024-08-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Autor | Zhou Xiaoxiao
E-mail| [email protected]

O mercado de modelos grandes de código aberto tem estado muito animado recentemente. Primeiro, a Apple abriu o código-fonte do modelo pequeno DCLM de 7 bilhões e, em seguida, o Llama 3.1 e o Mistral Large 2 do Meta foram abertos um após o outro. ultrapassou o modelo SOTA de código fechado.

No entanto, o debate entre as facções de código aberto e de código fechado não mostra sinais de parar.

Por um lado, Meta disse após o lançamento do Llama 3.1: "Agora, estamos inaugurando uma nova era liderada pelo código aberto. Por outro lado, Sam Altman escreveu um artigo no "Washington Post", levantando diretamente a contradição." entre código aberto e código fechado ao nível do país e da consciência.

Na Conferência Mundial de Inteligência Artificial, há algum tempo, Robin Li afirmou sem rodeios que "o código aberto é na verdade uma espécie de imposto de QI" porque os modelos de código fechado são obviamente mais poderosos e têm custos de raciocínio mais baixos, o que mais uma vez desencadeou discussões.

Mais tarde, Fu Sheng também expressou sua opinião. Ele acreditava que os dois campos de código aberto e código fechado competem entre si e se desenvolvem juntos. Ele também refutou a visão de que "o código aberto é na verdade uma espécie de imposto de QI": "O modelo de grande linguagem de código aberto é gratuito, como conseguiu o imposto de QI e quem está coletando o imposto?", "Se as empresas de hoje usam modelos de linguagem grande de código fechado pagos, chamados de 'imposto de QI', especialmente as taxas de licenciamento de modelo e taxas de API muito altas, que custam centenas de milhões por ano e acabaram sendo compradas de volta como decoração, e até mesmo os funcionários não podiam usá-las em absoluto (os modelos).

O cerne deste debate envolve a direção e o modelo de desenvolvimento tecnológico, que reflete as opiniões e posições das diferentes partes interessadas. Antes de falarmos sobre código aberto e código fechado de grandes modelos de linguagem, precisamos esclarecer os termos “código aberto” e “código aberto”. código fechado". Dois conceitos básicos.

O termo "código aberto" vem da área de software e refere-se a tornar o código-fonte do software aberto ao público durante o processo de desenvolvimento, permitindo que qualquer pessoa o visualize, modifique e distribua.software livreO desenvolvimento de software geralmente segue os princípios de cooperação recíproca e produção entre pares, promovendo o aprimoramento de módulos de produção, canais de comunicação e comunidades interativas. Representantes típicos incluem Linux e Mozilla Firefox.

Software de código fechado (software proprietário) Por motivos comerciais ou outros, o código-fonte não é divulgado e apenas programas legíveis por computador (como formato binário) são fornecidos. O código-fonte pertence e é controlado apenas pelo desenvolvedor. Os representantes típicos incluem Windows e Android.

Código aberto é um modelo de desenvolvimento de software baseado na abertura, compartilhamento e colaboração. Ele incentiva todos a participarem no desenvolvimento e melhoria de software e promove o progresso contínuo e a aplicação generalizada de tecnologia.

O software desenvolvido com código fechado tem mais probabilidade de ser um produto estável e focado, mas o software de código fechado geralmente custa dinheiro e, se tiver algum bug ou recurso ausente, você terá que esperar que o desenvolvedor resolva o problema.

Quanto ao que é um grande modelo de código aberto, a indústria não alcançou um consenso claro como o software de código aberto.

O código aberto de grandes modelos de linguagem e o software de código aberto são semelhantes em conceito. Ambos se baseiam na abertura, no compartilhamento e na colaboração, incentivando a comunidade a participar no desenvolvimento e na melhoria, promovendo o progresso tecnológico e melhorando a transparência.

No entanto, existem diferenças significativas na implementação e nos requisitos.

O software de código aberto destina-se principalmente a aplicativos e ferramentas, e o código aberto tem requisitos de recursos mais baixos, enquanto o código aberto de grandes modelos de linguagem envolve uma grande quantidade de recursos de computação e dados de alta qualidade, e pode ter mais restrições de uso. Portanto, embora ambos o código aberto visem promover a inovação e a difusão de tecnologia, o código aberto do modelo de linguagem grande enfrenta mais complexidades e a forma de contribuição da comunidade também é diferente.

Robin Li também enfatizou a diferença entre os dois. O modelo de código aberto não significa código de código aberto: "O modelo de código aberto só pode obter um monte de parâmetros, e você precisa fazer SFT (ajuste fino supervisionado) e alinhamento de segurança. Mesmo que seja. você obtém o código-fonte correspondente, não pode obtê-lo." Saber quanto e qual proporção de dados é usada para treinar esses parâmetros não tornará possível que todos coloquem lenha na fogueira. Obter essas coisas não permitirá que você apoiar-se nos ombros de gigantes e desenvolver-se iterativamente ".

O código aberto de processo completo de grandes modelos de linguagem inclui tornar todo o processo de desenvolvimento do modelo, desde a coleta de dados, design do modelo, treinamento até a implantação, aberto e transparente. Esta abordagem não inclui apenas a divulgação de conjuntos de dados e arquitetura de modelo, mas também abrange o compartilhamento de código do processo de treinamento e a liberação de pesos de modelo pré-treinados.

O ano passado assistiu a um enorme aumento no número de grandes modelos de linguagem, muitos alegando ser de código aberto, mas até que ponto são realmente abertos?

Andreas Liesenfeld, pesquisador de inteligência artificial da Universidade Radboud, na Holanda, e o lingüista computacional Mark Dingemanse também descobriram que, embora o termo "código aberto" seja amplamente usado, muitos modelos são, na melhor das hipóteses, apenas "pesos abertos", e muitas outras coisas sobre construção do sistema Todos os aspectos estão ocultos.

Por exemplo, embora tecnologias como Meta e Microsoft comercializem os seus grandes modelos de linguagem como "código aberto", não divulgam informações importantes relacionadas com a tecnologia subjacente. O que os surpreendeu foi que o desempenho das empresas e instituições de IA com menos recursos foi ainda mais louvável.

A equipe de pesquisa analisou uma série de projetos populares de grandes modelos de linguagem de "código aberto" e avaliou sua abertura real a partir de vários aspectos, como código, dados, pesos, APIs e documentação. O estudo também usou o ChatGPT da OpenAI como ponto de referência para código fechado, destacando o verdadeiro estado dos projetos de “código aberto”.




✔ significa aberto, ~ significa parcialmente aberto e X significa fechado

Os resultados mostram diferenças significativas entre os projetos. De acordo com esta classificação, o OLMo do Allen Institute for AI é o modelo de código mais aberto, seguido pelo BloomZ da BigScience, ambos desenvolvidos por organizações sem fins lucrativos.

O artigo afirma que, embora Llama da Meta e Gemma do Google DeepMind afirmem ser de código aberto ou aberto, na verdade são apenas pesos abertos. Pesquisadores externos podem acessar e usar modelos pré-treinados, mas não podem inspecionar ou personalizar o modelo e não sabem como. o modelo visa tarefas específicas.

Os recentes lançamentos de LLaMA 3 e Mistral Large 2 atraíram muita atenção. Em termos de abertura do modelo, o LLaMA 3 expõe os pesos do modelo. Os usuários podem acessar e usar esses pesos de modelo pré-treinados e ajustados por instrução. Além disso, Meta também fornece algum código básico para pré-treinamento do modelo e ajuste fino de instrução. mas o código de treinamento completo não é fornecido e os dados de treinamento do LLaMA 3 não são divulgados. Mas desta vez a LMeta trouxe um relatório técnico de 93 páginas sobre o LLaMA 3.1 405B.

A situação do Mistral Large 2 é semelhante. Mantém um alto grau de abertura em termos de pesos de modelo e APIs, mas um menor grau de abertura em termos de código completo e dados de treinamento. Adota uma estratégia que equilibra interesses comerciais e abertura. permitindo uso em pesquisa com restrições ao uso comercial.

O Google disse que a empresa foi “muito precisa em sua linguagem” ao descrever o modelo e chamou o Gemma de aberto em vez de código aberto. “Os conceitos de código aberto existentes nem sempre são diretamente aplicáveis ​​aos sistemas de IA”,

Um contexto importante para este estudo é a Lei de Inteligência Artificial da UE, que quando entrar em vigor impõe regulamentações mais flexíveis sobre modelos classificados como abertos, pelo que as definições sobre código aberto podem tornar-se mais importantes.

A única maneira de inovar, dizem os pesquisadores, é ajustando o modelo, para o qual são necessárias informações suficientes para construir sua própria versão. Não apenas isso, mas os modelos devem ser examinados. Por exemplo, se um modelo for treinado em um grande número de amostras de teste, passar em um teste específico pode não ser uma conquista.

Eles também estão satisfeitos com o surgimento de tantas alternativas de código aberto, e o ChatGPT é tão popular que é fácil esquecer qualquer coisa sobre seus dados de treinamento ou outros truques de bastidores. Esta é uma armadilha para aqueles que desejam compreender melhor o modelo ou construir aplicações baseadas nele, enquanto alternativas de código aberto permitem investigação básica crítica.

A Silicon Star também fez estatísticas sobre a situação do código aberto de alguns modelos domésticos de grandes linguagens de código aberto:


Podemos ver na tabela que, semelhante à situação no exterior, o modelo de código aberto mais completo é liderado basicamente por instituições de pesquisa. Isso ocorre principalmente porque o objetivo das instituições de pesquisa é promover o progresso da pesquisa científica e o desenvolvimento da indústria, e elas são mais. inclinados a divulgar seus resultados de pesquisa.

As empresas comerciais utilizam as vantagens dos seus recursos para desenvolver modelos mais poderosos e obter vantagens na concorrência através de estratégias apropriadas de código aberto.


Do GPT-3 ao BERT, o código aberto trouxe um impulso importante ao grande ecossistema de modelos.

Ao tornar públicas sua arquitetura e métodos de treinamento, pesquisadores e desenvolvedores podem explorar e melhorar ainda mais essas bases, levando a tecnologias e aplicações mais avançadas.

O surgimento de grandes modelos de código aberto reduziu significativamente o limiar de desenvolvimento. Os desenvolvedores e as pequenas e médias empresas podem tirar proveito dessas tecnologias avançadas de IA sem ter que construir modelos do zero, economizando assim muito tempo e recursos. Isso permite que projetos e produtos mais inovadores sejam implementados rapidamente, promovendo o desenvolvimento de toda a indústria. Os desenvolvedores compartilham ativamente métodos de otimização e casos de aplicação na plataforma de código aberto, o que também promove a maturidade e a aplicação da tecnologia.

Para a educação e a investigação científica, os grandes modelos de linguagem de código aberto fornecem recursos valiosos. Ao estudar e usar esses modelos, estudantes e desenvolvedores novatos podem dominar rapidamente tecnologias avançadas de IA, encurtar a curva de aprendizado e trazer sangue novo para a indústria.

No entanto, a abertura de grandes modelos de linguagem não é uma simples propriedade binária. A arquitetura do sistema baseado em Transformer e seu processo de treinamento são extremamente complexos e difíceis de classificar simplesmente como abertos ou fechados. O grande modelo de código aberto não é um simples rótulo, mas sim um espectro, que varia de código totalmente aberto a código parcialmente aberto, em graus variados.

O código aberto de grandes modelos de linguagem é uma tarefa complexa e meticulosa, e nem todos os modelos devem ser de código aberto.

Também não deveríamos exigir código totalmente aberto sob a forma de “sequestro moral”, porque isto envolve muitas considerações tecnológicas, de recursos e de segurança, e requer um equilíbrio entre abertura e segurança, inovação e responsabilidade. Tal como acontece com outros aspectos da tecnologia, diversas formas de contribuir constroem um ecossistema tecnológico mais rico.

A relação entre os modelos de código aberto e de código fechado pode ser comparada à coexistência de software de código aberto e de código fechado na indústria de software.

O modelo de código aberto promove a ampla disseminação e inovação da tecnologia e oferece mais possibilidades para investigadores e empresas, enquanto o modelo de código fechado promove a melhoria dos padrões em toda a indústria. A competição saudável entre os dois inspira a melhoria contínua e oferece diversas opções aos usuários.

Assim como o software de código aberto e o software proprietário moldaram conjuntamente o ecossistema de software atual,Não há oposição binária entre grandes modelos de código aberto e de código fechado. A coexistência dos dois é uma importante força motriz para o avanço contínuo da tecnologia de IA e para atender às necessidades de diferentes cenários de aplicação. Em última análise, os utilizadores e o mercado farão a escolha que mais lhes convém.