En la gran industria del modelo, ¿no existe ningún código abierto "real"?

2024-08-01

Autor |
Correo electrónico ｜ [email protected]

El mercado de modelos grandes de código abierto ha estado muy animado recientemente. Primero, Apple abrió el modelo pequeño DCLM de 7 mil millones de parámetros, y luego el peso pesado Meta's Llama 3.1 y Mistral Large 2 fueron abiertos uno tras otro en muchas pruebas de referencia. superó el modelo SOTA de código cerrado.

Sin embargo, el debate entre las facciones de código abierto y de código cerrado no muestra signos de detenerse.

Por un lado, Meta dijo después del lanzamiento de Llama 3.1: "Ahora estamos marcando el comienzo de una nueva era liderada por el código abierto. Por otro lado, Sam Altman escribió un artículo en el "Washington Post", planteando directamente la contradicción". entre código abierto y código cerrado al nivel país y conciencia.

En la Conferencia Mundial de Inteligencia Artificial hace algún tiempo, Robin Li afirmó sin rodeos que "el código abierto es en realidad una especie de impuesto al coeficiente intelectual", porque los modelos de código cerrado son obviamente más poderosos y tienen menores costos de razonamiento, lo que una vez más desencadenó discusiones.

Más tarde, Fu Sheng también expresó su opinión. Creía que los dos campos del código abierto y el código cerrado compiten entre sí y se desarrollan juntos. También refutó la opinión de que "el código abierto es en realidad una especie de impuesto IQ": "El modelo de lenguaje grande de código abierto es gratuito, ¿cómo obtuvo el impuesto IQ y quién recauda el impuesto?", "Si las empresas de hoy utilizan Código cerrado pagado Modelos de lenguaje grande, eso es lo que se llama un 'impuesto IQ', especialmente las muy altas tarifas de licencia de modelo y tarifas API, que cuestan cientos de millones al año y eventualmente se recompran como decoración, y ni siquiera los empleados pueden usar ellos (el modelo)”.

El núcleo de este debate involucra la dirección y el modelo de desarrollo tecnológico, que refleja las opiniones y posiciones de diferentes partes interesadas. Antes de hablar sobre código abierto y código cerrado de grandes modelos de lenguaje, debemos aclarar los términos "código abierto" y ". código cerrado". Dos conceptos básicos.

El término "código abierto" proviene del campo del software y se refiere a hacer que el código fuente del software esté abierto al público durante el proceso de desarrollo, permitiendo que cualquiera pueda verlo, modificarlo y distribuirlo.software de código abiertoEl desarrollo de software suele seguir los principios de cooperación recíproca y producción entre pares, promoviendo la mejora de los módulos de producción, los canales de comunicación y las comunidades interactivas. Los representantes típicos incluyen Linux y Mozilla Firefox.

Software de código cerrado (software propietario) Por motivos comerciales o de otro tipo, el código fuente no se divulga y sólo se proporcionan programas legibles por computadora (como el formato binario). El código fuente es propiedad y está controlado únicamente por el desarrollador. Los representantes típicos incluyen Windows y Android.

El código abierto es un modelo de desarrollo de software basado en la apertura, el intercambio y la colaboración. Alienta a todos a participar en el desarrollo y la mejora del software y promueve el progreso continuo y la aplicación generalizada de la tecnología.

Es más probable que el software desarrollado con código cerrado sea un producto estable y enfocado, pero el software de código cerrado generalmente cuesta dinero y, si tiene algún error o faltan funciones, debe esperar a que el desarrollador solucione el problema.

En cuanto a qué es un gran modelo de código abierto, la industria no ha llegado a un consenso claro como el software de código abierto.

El código abierto de los grandes modelos de lenguaje y el software de código abierto son similares en concepto. Ambos se basan en la apertura, el intercambio y la colaboración, animando a la comunidad a participar en el desarrollo y la mejora, promoviendo el progreso tecnológico y mejorando la transparencia.

Sin embargo, existen diferencias significativas en la implementación y los requisitos.

El software de código abierto está dirigido principalmente a aplicaciones y herramientas, y el código abierto tiene menores requisitos de recursos, mientras que el código abierto de modelos de lenguaje grandes implica una gran cantidad de recursos informáticos y datos de alta calidad, y puede tener más restricciones de uso. Por lo tanto, si bien ambos códigos abiertos tienen como objetivo promover la innovación y la difusión de tecnología, el modelo de lenguaje grande de código abierto enfrenta más complejidades y la forma de contribución de la comunidad también es diferente.

Robin Li también enfatizó la diferencia entre los dos modelos de código abierto no significa código fuente abierto: "El modelo de código abierto solo puede obtener un montón de parámetros, y hay que realizar SFT (ajuste fino supervisado) y alineación de seguridad. Incluso si. obtienes el código fuente correspondiente, no puedes obtenerlo". Saber cuánto y qué proporción de datos se utilizaron para entrenar estos parámetros no permitirá que todos echen más leña al fuego. Obtener estas cosas no te permitirá pararse sobre los hombros de gigantes y desarrollarse de forma iterativa ".

El proceso completo de código abierto de grandes modelos de lenguaje incluye hacer que todo el proceso de desarrollo del modelo, desde la recopilación de datos, el diseño del modelo, la capacitación hasta la implementación, sea abierto y transparente. Este enfoque no solo incluye la divulgación de conjuntos de datos y la arquitectura del modelo, sino que también cubre el intercambio de código del proceso de capacitación y la publicación de pesos de modelos previamente entrenados.

El año pasado se produjo un enorme aumento en la cantidad de modelos de lenguajes grandes, muchos de los cuales afirman ser de código abierto, pero ¿qué tan abiertos son realmente?

Andreas Liesenfeld, investigador de inteligencia artificial de la Universidad de Radboud en los Países Bajos, y el lingüista computacional Mark Dingemanse también descubrieron que, aunque el término "código abierto" se usa ampliamente, muchos modelos son, en el mejor de los casos, sólo "pesos abiertos", y la mayoría de las otras cosas sobre construcción del sistema Todos los aspectos están ocultos.

Por ejemplo, aunque tecnologías como Meta y Microsoft comercializan sus grandes modelos de lenguaje como "código abierto", no revelan información importante relacionada con la tecnología subyacente. Lo que les sorprendió fue que el desempeño de las empresas e instituciones de IA con menos recursos fuera aún más encomiable.

El equipo de investigación analizó una serie de proyectos populares de modelos de lenguaje grandes de "código abierto" y evaluó su apertura real desde múltiples aspectos, como código, datos, pesos, API y documentación. El estudio también utilizó ChatGPT de OpenAI como punto de referencia para el código cerrado, destacando el verdadero estado de los proyectos de “código abierto”.

✔ significa abierto, ~ significa parcialmente abierto y X significa cerrado

Los resultados muestran diferencias significativas entre proyectos. Según este ranking, OLMo del Allen Institute for AI es el modelo de código más abierto, seguido por BloomZ de BigScience, ambos desarrollados por organizaciones sin fines de lucro.

El documento afirma que, aunque Llama de Meta y Gemma de Google DeepMind afirman ser de código abierto o abiertos, en realidad son solo pesos abiertos. Los investigadores externos pueden acceder y utilizar modelos previamente entrenados, pero no pueden inspeccionar ni personalizar el modelo, y no saben cómo. el modelo se centra en tareas específicas. Realice ajustes precisos.

Los recientes lanzamientos de LLaMA 3 y Mistral Large 2 han llamado mucho la atención. En términos de apertura del modelo, LLaMA 3 expone los pesos del modelo. Los usuarios pueden acceder y utilizar estos pesos del modelo previamente entrenados y ajustados con instrucciones. Además, Meta también proporciona algún código básico para el preentrenamiento del modelo y el ajuste fino de las instrucciones. No se proporciona el código de entrenamiento completo y los datos de entrenamiento para LLaMA 3 no se hacen públicos. Pero esta vez LMeta trajo un informe técnico de 93 páginas sobre LLaMA 3.1 405B.

La situación de Mistral Large 2 es similar. Mantiene un alto grado de apertura en términos de pesos de modelo y API, pero un menor grado de apertura en términos de código completo y datos de entrenamiento. Adopta una estrategia que equilibra los intereses comerciales y la apertura. permitiendo el uso de investigación con restricciones de uso comercial.

Google dijo que la compañía fue "muy precisa en su lenguaje" al describir el modelo, y llamaron a Gemma abierto en lugar de código abierto. "Los conceptos de código abierto existentes no siempre son directamente aplicables a los sistemas de IA",

Un contexto importante para este estudio es la Ley de Inteligencia Artificial de la UE, que cuando entre en vigor impone regulaciones más flexibles sobre los modelos clasificados como abiertos, por lo que la definición de código abierto puede volverse más importante.

La única forma de innovar, dicen los investigadores, es modificando el modelo, para lo cual se necesita suficiente información para construir su propia versión. No sólo eso, sino que los modelos deben ser examinados minuciosamente. Por ejemplo, si un modelo se entrena con una gran cantidad de muestras de prueba, pasar una prueba específica puede no ser un logro.

También están encantados con la aparición de tantas alternativas de código abierto, y ChatGPT es tan popular que es fácil olvidarse de sus datos de entrenamiento u otros trucos detrás de escena. Esto es un obstáculo para quienes desean comprender mejor el modelo o crear aplicaciones basadas en él, mientras que las alternativas de código abierto permiten una investigación básica crítica.

Silicon Star también hizo estadísticas sobre la situación del código abierto de algunos modelos nacionales de lenguajes grandes de código abierto:

Podemos ver en la tabla que, similar a la situación en el extranjero, el modelo de código abierto más completo está liderado básicamente por instituciones de investigación. Esto se debe principalmente a que el objetivo de las instituciones de investigación es promover el progreso de la investigación científica y el desarrollo de la industria, y son más. inclinados a abrir los resultados de sus investigaciones.

Las empresas comerciales utilizan sus ventajas de recursos para desarrollar modelos más potentes y obtener ventajas en la competencia a través de estrategias apropiadas de código abierto.

Desde GPT-3 hasta BERT, el código abierto ha aportado un importante impulso al gran ecosistema de modelos.

Al hacer públicos su arquitectura y sus métodos de capacitación, los investigadores y desarrolladores pueden explorar y mejorar aún más estos fundamentos, lo que conducirá a tecnologías y aplicaciones más vanguardistas.

La aparición de grandes modelos de código abierto ha reducido significativamente el umbral de desarrollo. Los desarrolladores y las pequeñas y medianas empresas pueden aprovechar estas tecnologías avanzadas de IA sin tener que crear modelos desde cero, ahorrando así mucho tiempo y recursos. Esto permite implementar rápidamente proyectos y productos más innovadores, impulsando el desarrollo de toda la industria. Los desarrolladores comparten activamente métodos de optimización y casos de aplicación en la plataforma de código abierto, lo que también promueve la madurez y la aplicación de la tecnología.

Para la educación y la investigación científica, los grandes modelos de lenguaje de código abierto proporcionan recursos valiosos. Al estudiar y utilizar estos modelos, los estudiantes y desarrolladores novatos pueden dominar rápidamente las tecnologías avanzadas de IA, acortar la curva de aprendizaje y aportar sangre fresca a la industria.

Sin embargo, la apertura de grandes modelos de lenguaje no es una simple propiedad binaria. La arquitectura del sistema basado en Transformer y su proceso de entrenamiento son extremadamente complejos y difíciles de clasificar simplemente como abiertos o cerrados. El gran modelo de código abierto no es una simple etiqueta, sino más bien un espectro, que va desde el código totalmente abierto hasta el código parcialmente abierto, en distintos grados.

El código abierto de modelos de lenguaje grandes es una tarea compleja y meticulosa, y no todos los modelos deben ser de código abierto.

No deberíamos exigir un código totalmente abierto en forma de "secuestro moral", porque esto implica mucha tecnología, recursos y consideraciones de seguridad, y requiere un equilibrio entre apertura y seguridad, innovación y responsabilidad. Al igual que con otros aspectos de la tecnología, diversas formas de contribuir construyen un ecosistema tecnológico más rico.

La relación entre los modelos de código abierto y de código cerrado puede compararse con la coexistencia de software de código abierto y de código cerrado en la industria del software.

El modelo de código abierto promueve la difusión generalizada y la innovación de la tecnología y brinda más posibilidades para investigadores y empresas, mientras que el modelo de código cerrado promueve la mejora de los estándares en toda la industria. La sana competencia entre los dos inspira una mejora continua y ofrece a los usuarios diversas opciones.

Así como el software de código abierto y el software propietario han dado forma conjuntamente al ecosistema de software actual,No existe una oposición binaria entre los grandes modelos de código abierto y de código cerrado. La coexistencia de los dos es una fuerza impulsora importante para el avance continuo de la tecnología de IA y la satisfacción de las necesidades de diferentes escenarios de aplicación. En última instancia, los usuarios y el mercado tomarán la decisión que más les convenga.

noticias

En la gran industria del modelo, ¿no existe ningún código abierto "real"?

Introducción

Mi informacion de contacto