La Q* de OpenAI nunca se había visto antes, pero la Q* de varias empresas emergentes está aquí

El Q* de OpenAI nunca se había visto antes, pero el Q* de varias empresas emergentes ya está aquí

2024-07-31

¿Qué tan lejos estamos de una IA que pueda "pensar lentamente"?

Autor｜Stephanie Palazzolo

Compilación |

Editor｜Jingyu

El año pasado, antes y después de que Sam Altman fuera despedido temporalmente, los investigadores de OpenAI enviaron una carta conjunta a la junta directiva, señalando que el misterioso proyecto cuyo nombre en código Q puede amenazar a toda la humanidad. OpenAI reconoció a Q* en una carta interna de seguimiento a los empleados y describió el proyecto como un "sistema autónomo sobrehumano".

Aunque Q* aún no se ha visto, siempre hay rumores al respecto en el mundo.

Lu Yifeng, ingeniero senior de Google DeepMind, una vez le hizo una conjetura a Geek Park desde una perspectiva profesional: el modelo necesita darse cuenta de qué problemas no está seguro y qué debe hacer a continuación. En este momento, es posible que el modelo necesite navegar por Internet, leer libros, hacer experimentos, pensar en algunas ideas inexplicables y discutir con otros, como los humanos.

Este año, cuando hago preguntas en las aplicaciones de asistente de IA de los principales fabricantes de modelos, puedo sentir que las respuestas son más confiables que el año pasado. Muchos fabricantes también dijeron que están trabajando duro para que los modelos piensen más y mejoren aún más. sus capacidades de razonamiento. ¿Cómo es el progreso hasta ahora?

Con respecto a las cuestiones anteriores, la reportera de The Information Stephanie Palazzolo, en el artículo "Cómo los rivales más pequeños de OpenAI están desarrollando su propia IA que 'razona'", analizó los modelos de empresas emergentes existentes para mejorar las capacidades de razonamiento de modelos, incluida la empresa china Q*. Organizado por Geek Park, queda de la siguiente manera:

Competidores más pequeños de OpenAI

Desarrolla tu propia IA de “razonamiento”

Excluyendo las burbujas, la utilidad de esta ola de IA es un tema que se ha examinado repetidamente este año.

El principio del modelo grande es generar unidades de palabras una por una según la predicción de probabilidad, pero repetir como loros las palabras según el corpus proporcionado durante el entrenamiento e inventar alucinaciones cuando se encuentran preguntas que nunca antes se han visto, obviamente no es lo que todos espera. Mejorar aún más las capacidades de razonamiento del modelo se ha vuelto clave.

En este sentido, todavía tenemos que ver avances de OpenAI y Google, pero algunas empresas emergentes e individuos dicen que han ideado algunos métodos "baratos" (trucos baratos) para lograr algunas formas de capacidades de razonamiento de IA.

Estos atajos incluyen dividir un problema complejo en pasos más simples y hacerle al modelo docenas de preguntas adicionales para ayudarlo a analizar esos pasos.

Por ejemplo, cuando se le pide que redacte una publicación de blog sobre un nuevo producto, la aplicación de IA activa automáticamente consultas adicionales, como pedirle al modelo grande que evalúe sus respuestas y áreas de mejora. Por supuesto, en la interfaz de usuario no se pueden ver estas acciones realizadas por el modelo en segundo plano.

Esto es similar al método socrático de enseñar a los estudiantes a pensar críticamente sobre sus creencias o argumentos. Este último adopta un método de enseñanza de preguntas y respuestas cuando se comunica con los estudiantes, Sócrates no les dará respuestas directamente, sino que los guiará para que descubran los problemas por sí mismos y les revelará las contradicciones y deficiencias de sus puntos de vista haciendo preguntas constantemente. y corríjalo gradualmente para sacar la conclusión correcta.

Con este enlace, la aplicación de IA puede pedirle al modelo grande que reescriba la publicación del blog anterior, teniendo en cuenta los comentarios que acaba de dar al escribir. Este proceso a menudo se denomina reflexión, y un empresario de aplicaciones de IA dijo que a menudo conduce a mejores resultados.

Además del enfoque reflexivo, los desarrolladores también pueden seguir a Google y probar Una técnica llamada muestreo. Durante el muestreo, los desarrolladores mejoran la capacidad de los modelos grandes para producir respuestas creativas y aleatorias haciendo la misma pregunta docenas o incluso 100 veces y luego seleccionando la mejor respuesta.

Por ejemplo, una aplicación de asistente de programación puede pedirle a un modelo grande que dé 100 respuestas diferentes a la misma pregunta y luego la aplicación ejecuta todos estos fragmentos de código. La aplicación final del asistente de programación seleccionará el código que produce la respuesta correcta y seleccionará automáticamente el código más conciso.

Meta destacó algunas técnicas similares en su reciente artículo Llama 3.

Pero esta solución alternativa (llamar a un modelo de lenguaje grande 100 veces o pedirle que genere esa cantidad de texto y código) es extremadamente lenta y costosa. Probablemente por eso algunos desarrolladores han criticado el lento rendimiento del asistente de programación de Cognition, una startup que utiliza estas tecnologías.

Los desarrolladores también han visto este problema y están intentando solucionarlo.el camino esSeleccionar ejemplos del modelo que muestren una buena capacidad de razonamiento para un problema específico y "alimentarlos" al modelo.datos de entrenamientoConcéntrate en resolver este problema. Como dijo un empresario, este enfoque es similar a aprender las tablas de multiplicar en la escuela primaria. Inicialmente, es posible que los estudiantes necesiten calcular manualmente cada problema de multiplicación. Pero con el tiempo, y memorizando estas tablas de multiplicar, las respuestas casi pasan a formar parte de la intuición del alumno.

Para desarrollar este tipo de IA, los desarrolladores necesitan controlar modelos grandes. Pero es difícil obtener una sensación de control de los modelos de código cerrado de OpenAI o Anthropic, por lo que es más probable que utilicen un modelo de peso abierto como Llama 3 (peso abierto es un término en el mundo del código abierto, que significa código con un alto grado de apertura).

Los dos métodos anteriores pueden ser las tecnologías utilizadas por OpenAI detrás de su avance en el razonamiento. Por supuesto, OpenAI aún no ha lanzado Q*, también conocido como proyecto "Strawberry".

Q* de China

Los desarrolladores e investigadores chinos también están dominando gradualmente estas tecnologías.

Investigadores de Skywork AI de China y la Universidad Tecnológica de Nanyang publicaron un artículo sobre este tema en junio de este año. En este artículo, también nombraron la tecnología Q* en honor a una versión de OpenAI que nunca antes habían visto.

La tecnología Q* de China permite que modelos grandes resuelvan problemas con múltiples pasos, como complejos acertijos lógicos.

el camino es"Buscando" en cada paso de la respuesta el mejor siguiente paso que debería intentar el modelo grande, en lugar de seguir los pasos para llegar a una conclusión (este método también se conoce como búsqueda de árbol de Monte Carlo y se usó anteriormente en Google AlphaGo). . Esto se logra mediante una ecuación especial llamada modelo de valor Q que ayuda al modelo grande a estimar la recompensa futura de cada posible siguiente paso, o la probabilidad de que la respuesta final sea correcta.

Los investigadores dicen que planean hacer pública la tecnología este otoño.

Alex Graveley, director ejecutivo de Minion AI, una startup de agentes inteligentes y ex arquitecto jefe de GitHub Copilot, dijo que todavía lo están intentando. Enseñe al modelo de lenguaje a retroceder un paso cuando se dé cuenta de que algo salió mal.Afirma que esta conciencia puede ocurrir cuando un modelo grande produce una respuesta incorrecta o se le pide que reflexione sobre sus pasos intermedios (similar al ejemplo de la publicación de blog anterior)., al darse cuenta de que se había cometido un error.

Hay más intentos en la industria, incluido el artículo "Quiet-STaR" publicado por la Universidad de Stanford y Notbad AI en marzo. Al igual que los humanos hacen una pausa para pensar en sus pensamientos antes de hablar o escribir, este artículo explica cómo enseñar modelos de lenguaje grandes para generar información sobre los pasos de "pensamiento" internos que toman en problemas de razonamiento complejos para ayudarlos a tomar mejores decisiones.

La tecnología Q*/Strawberry de OpenAI puede tener una ventaja, pero todos los demás parecen estar corriendo para ponerse al día.

*Fuente de la imagen principal: GulfNews

friki preguntó

¿Crees que estamos muy separados?

¿Qué tan lejos está la IA que puede hacer "pensamiento lento"?

Medición real de la grabación de llamadas beta de iOS 18.1, el teléfono Android aún puede recibir indicaciones de grabación.

Me gusta y sigueCuenta de vídeo de Geek Park，

noticias

El Q* de OpenAI nunca se había visto antes, pero el Q* de varias empresas emergentes ya está aquí

Introducción

Mi informacion de contacto