El programador de inteligencia artificial más poderoso pierde su trabajo: ¡repasa el código en 84 segundos y piensa como un humano! El equipo es solo de 5 personas

El programador de inteligencia artificial más poderoso pierde su trabajo: ¡repasa el código en 84 segundos y piensa como un humano! El equipo es solo de 5 personas.

2024-08-13

El viento del oeste de Jin Lei se origina en el templo de Aofei
Qubits | Cuenta pública QbitAI

Después de Devin, otroingeniero de software de inteligencia artificialLa pantalla fue deslizada——

se llamaGenio, conocido como el actualEl más fuerte en la superficie.¡Ya pueden pensar y actuar como humanos!

Entonces, ¿qué tan fuerte es este "más fuerte en la superficie"?

Echemos un vistazo primeroPuntuación de revisión。

En la lista autorizada SWE-Bench, Genie resolvió30.07%La puntuación de la pregunta encabezó la lista.

(SWE-Bench es un punto de referencia utilizado para evaluar modelos grandes para resolver problemas de software del mundo real).

Se puede decir que este resultado está muy por delante del segundo lugar en un 19,27%, desbloqueandoEl mayor aumento en la mejora de SOTA: ¡57%!

En cuanto a GenieEfecto real, en palabras del equipo:

Puede resolver problemas de software de la vida real como los ingenieros humanos.

En primer lugar, puede utilizar 4 formas de iniciar Genie, a saber, palabras clave, GitHub Issue, Linear Ticket o API.

Tomando como ejemplo la resolución de problemas de GitHub, primero proporcione a Genie un enlace al repositorio y comenzaráResolver problemas automáticamenteConsiguió:

Club de geniosPensamiento iterativo automáticoSi quiere resolver este problema, qué archivos necesita hasta que sienta que ha encontrado uno con el que está satisfecho:

Inmediatamente después, hará unAnálisis iterativo automáticoEl proceso:

Entonces Genie empezó a "swish, swish, swish"Escribir + ejecutar código automáticamenteConsiguió:

Si se produce un error mientras se ejecuta el código, Genie solo se centrará en el área del problema y repetirá el proceso de análisis, escritura del código y ejecución hasta que se ejecute.

Todo el proceso sólo lleva tiempo.84 segundos！

En palabras del equipo:

Genie ha observado y aprendido de cómo los programadores humanos resuelven problemas de software millones de veces.
Este es un número que ningún programador humano puede alcanzar en su vida.

Pero lo que es aún más inesperado es el equipo detrás de Genie——Coseno, solo 5 personas.。

Y el CEO Alistair también publicó un mensaje agradeciendo a OpenAI:

No podríamos hacer Genie sin ti.

Entonces, ¿cómo construyó Genie el equipo de Cosine?

¿Cómo convertirse en el ingeniero de IA más fuerte?

La característica principal de Genie es su capacidad para imitar los procesos cognitivos, la lógica y el flujo de trabajo de los ingenieros humanos.

Para ello, el equipo de Genie reveló que recopiló un conjunto de datos que contiene las actividades de desarrollo de programadores humanos reales durante el año pasado.

No solo utiliza análisis de resultados, análisis estático, reproducción automática, verificación paso a paso y otros métodos, sino que también utiliza modelos de IA entrenados en base a una gran cantidad de datos etiquetados. El beneficio es que a medida que mejoran las capacidades de los modelos subyacentes, también mejora la calidad de los datos que pueden extraer.

Finalmente genioUtilice estos datos patentados para entrenar。

El proceso completo del razonamiento humano está codificado en el conjunto de datos, incluido el rastreo perfecto de la información, el descubrimiento incremental de conocimientos y el proceso de toma de decisiones paso a paso basado en casos de trabajo reales de ingenieros de software.

El proceso de razonamiento de Genie incluyePlanificación, recuperación, escritura de código y ejecución de código.Los cuatro pasos principales superan las limitaciones de otros ingenieros de IA que dependen de agregar herramientas adicionales, como navegadores web e intérpretes de código, además del modelo básico, y pueden manejar problemas diversos, altamente situacionales y sin precedentes, como los humanos.

Este método de entrenamiento hizo que los internautas pensaran inmediatamente en ideas similares que Karpathy había propuesto antes:

Para LLM, los datos de formación ideales no son el contenido que escribe en sí, sino su proceso de pensamiento completo y cada acción de edición durante el proceso de escritura. Sin embargo, sólo podemos hacer lo mejor que podamos con los recursos que tenemos.

Además, la formación Genie también introducemecanismo de superación personal。

Los datos de entrenamiento inicial son en su mayoría código libre de errores que puede ejecutarse normalmente, lo que dificulta que Genie maneje situaciones de error. Para resolver este problema, el equipo utilizó la primera versión de Genie para generar datos sintéticos que contenían errores y luego utilizó estos datos para entrenar la siguiente versión del modelo.

Específicamente, la versión anterior de Genie se usa para proponer una solución y, si la solución es incorrecta, se usa el estado final dominado de la tarea para enseñarle a alcanzar el estado correcto desde el estado actual.

Al repetir este proceso, la solución inicial propuesta por Genie se vuelve gradualmente más precisa, dando directamente la respuesta correcta en la mayoría de los casos, e incluso si comete un error, solo requiere menos correcciones en el conjunto de datos.

Otra clave para mejorar las capacidades de Genie radica en el soporte de modelos grandes proporcionado por OpenAI.

El equipo declaró que cuando desarrollaron Genie por primera vez, solo podían acceder a modelos de contexto cortos en el rango de 16-32k para realizar ajustes. Utilizaron estos modelos durante gran parte del desarrollo inicial y utilizaron más de 100 millones de datos simbólicos para entrenar. Aunque descubrieron que la arquitectura diseñada tenía ciertas ventajas, estaban fundamentalmente limitadas por la cantidad de información que el modelo puede procesar en un período de tiempo determinado.

Después de probar varios métodos de compresión/fragmentación, la única solución fue utilizar un modelo con un contexto más amplio.

OpenAI proporciona soporte para modelos de contexto prolongado y la última versión de Genie se ha entrenado en miles de millones de tokens.

El equipo cree que, en comparación con el ajuste de hiperparámetros y el volumen de datos, la calidad de los datos es la clave. Por lo tanto, también realizaron muchos experimentos sobre la mezcla de datos, incluidas múltiples dimensiones como el idioma, el tipo de tarea, la duración de la tarea, etc. La siguiente es la proporción de datos de diferentes lenguajes de programación utilizados para entrenar a Genie:

También hay proporciones de datos de diferentes tipos de instancias:

Un equipo de sólo 5 personas.

Como mencionamos anteriormente, el equipo inicial de Cosine actualmente solo cuenta con 5 personas.

En la introducción en el sitio web oficial, también se describen a sí mismos de manera muy directa como:

Pequeño pero poderoso.
Pequeño pero poderoso.

A juzgar por la introducción, algunos de los miembros son de empresas unicornio, algunos tienen experiencia en la gestión de equipos globales y algunos incluso han comenzado a programar desde que tenían 8 años.

Pero cuando se estableció Cosine por primera vez, solo había tres personas. Su objetivo eraComprender el razonamiento humano.。

Cabe mencionar que uno de los miembros del equipo es chino.Yang Li, es cofundador de Cosine y figura en Forbes 30 menores de 30 en 2021.

Además, con respecto a Genie, el CEO Alistair también dijo:

Empezamos a imaginar Genie ya en 2022, pero no era técnicamente viable en ese momento.
No fue hasta los últimos seis meses que Genie se convirtió en una realidad a medida que el modelo grande maduraba gradualmente.

Bueno, tengo que decir que la gran modelo ha vuelto a hacer un gran aporte.

Actualmente, Genie puede postularse para la lista de espera. Los amigos interesados pueden hacer clic en el enlace al final del artículo ~.

Dirección de la lista de espera:
https://cosine.sh/register

Enlaces de referencia:
[1]https://x.com/alistairpullen/status/1822981361608888619?s=46
[2]https://cosine.sh/blog/genie-technical-report
[3]https://cosine.sh/blog/state-of-the-art
[4]https://x.com/AlistairPullen/status/1823030874579120223
[5]https://x.com/yangli_

noticias