noticias

¿es el nuevo modelo de openai comparable a un doctorado? le pedí al dr. qingbei que lo probara: despierta.

2024-09-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

para ser honesto, no soporto a estas empresas, siempre cometen grandes errores en medio de la noche. . .

particularmente llamado openai, esta vez lanzó el nuevo modelo en el que todos han estado pensando durante mucho tiempo sin previo aviso.

mencioné antes que las fresas no son fresas. desde hace varios días circula por ahí una foto de una fresa.

como resultado, esta vez el nuevo modelo no tiene nada que ver con strawberry hair, sino que tiene un nombre completamente nuevo.abrir ai modelo o1

y esto ya se conoce como zenith star technology de openai. ultraman publicó directamente un mensaje diciendo que este es su modelo más fuerte y consistente hasta ahora.

la diferencia con tiempos anteriores es que openai realmente no se jactaba mucho de lo maravilloso que es esto, pero las pocas imágenes que aparecía hacían que la gente se sintiera un poco adormecida.

como se muestra en la siguiente imagen, se pueden explicar los resultados de tres proyectos de prueba, a saber, la olimpiada internacional de matemáticas, el concurso de programación y los problemas científicos de nivel doctoral.

el más a la izquierda aquí es gpt-4o, el del medio es la versión preliminar abierta actualmente o1 y el alto pilar rojo en el extremo derecho es o1 en plena salud. eche un vistazo, básicamente todos los elementos, o1 en comparación con sus predecesores,ambos tienen una mejora cercana a 8 veces. . .

si se desglosan los resultados de estas pruebas, el nuevo o1 supera al 4o en casi todas las disciplinas y campos.

lo que realmente hace que los malos críticos se sientan terribles es que openai dijo que invitó especialmente a expertos con doctorado para responder las preguntas.

los resultados se basan en los resultados de las pruebas de nivel doctoral,vemos que las puntuaciones de las respuestas de o1 superaron las de los expertos doctorales. o1 obtuvo 78, los humanos obtuvieron 69,7. . .

incluso el doctor ha perdido, ¿a qué me refiero comparado con eso?

los internautas sensibles se sorprendieron de inmediato. empezó a gritar de nuevo, había aparecido un nuevo dios.

si lo miras casualmente, encontrarás valoraciones súper altas con la palabra "más ¿qué?". "¡simplemente impresionante!", "lo más parecido al razonamiento humano"

muchos de nuestros amigos incluso vinieron a nuestro backstage y dijeron con emoción, o1, realmente tienes algo.

¿suena increíble? el propio openai obviamente siente lo mismo.

no se ha anunciado la cantidad específica de dinero que openai gastó en ello, pero a partir del uso de los usuarios, se puede ver claramente que esto cuesta mucho dinero.

o1 vista previa de $15 por millón de entradas, $60 por millón de salidas

lo que está abierto a los usuarios esta vez ni siquiera es una versión pura, sino una versión preliminar temprana y una versión pequeña castrada.

incluso si recién lo está probando por primera vez, no solo no es gratis, sino que incluso si paga para convertirse en miembro, su número de preguntas y respuestas será limitado.la versión preliminar solo tiene 30 entradas por semana y la versión mini solo tiene 50 entradas por semana. . .

aunque es un poco caro, ciertamente no podemos permitir que openai se jacte de lo que dice.

¿no dijeron que era más que un médico?el mal crítico abrió algunas cuentas y encontró algunos médicos para probarlo personalmente.

para garantizar el profesionalismo y la objetividad, invitamos especialmente a doctores de tres ciencias y disciplinas integrales a participar en la evaluación, incluidas biología, física del estado sólido, química de materiales, etc.

en,nankínfísica del estado sólido en la universidad.la evaluación dada por el dr. cui es la más alta entre varias personas. siente que o1 ha alcanzado el nivel de 60-80 puntos (sobre 100).

incluso las respuestas parciales pueden recibir 90 puntos.

la primera pregunta del dr. cui:distribución de fotones entrelazados a largas distancias. ¿existe alguna forma de superar el ruido blanco?

en aproximadamente 9 segundos, o1 dio 10 medidas factibles.

por supuesto, no tengo claro ningún punto. sin embargo, la evaluación del dr. cui está bien: las respuestas son completas, están en línea con los últimos avances de la investigación existente y son respuestas a nivel de divulgación científica.

entre ellos, la dirección de óptica adaptativa mencionada es incluso el último logro científico de este año.

comparándolo con la antigua versión 4o, puedo notar inmediatamente la diferencia.

no digas si se mencionó o no la nueva dirección, simplemente se dio.en cuanto al número de medidas, hay una gran diferencia.

más adelante preguntamos específicamente sobre la nueva dirección de la óptica adaptativa:¿qué principio de entrelazamiento cuántico se utiliza para mejorar la relación señal-ruido? ¿se puede extender a la óptica cuántica adaptativa?

después de varias rondas de respuestas, el dr. cui dio una puntuación alta de 80 a 90 puntos. también me admitió generosamente que parte del pensamiento era su punto débil y le servía como pista para orientarse.

sin embargo, cuando preguntamos más tarde, el problema quedó expuesto. cuando se le pregunta sobre detalles experimentales más difíciles, la efectividad de la respuesta de o1 disminuirá.

pero en general, en términos de física, el rendimiento de o1 es bastante bueno. en comparación con la versión anterior, la mejora es básicamente de unos 20 puntos.

sin embargo, en la prueba de openai, la física tiene la puntuación más alta. entonces trajimos otromateriales de lectura de la universidad de pekínquímicodoctor kquiero hacer algunas preguntas difíciles sobre química, que tiene la calificación más baja.

dr. k rodeafe-n4 se formularon una serie de preguntas y o1 dio una larga lista de respuestas. para simplificar el espacio, aquí solo mostramos algunas de las preguntas y resultados.

después de la prueba general, la evaluación del dr. k fue similar: puede que tenga un nivel de posgrado, pero su comprensión profunda y su capacidad para dar soluciones son relativamente débiles, y responde principalmente preguntas basadas en contenidos conocidos.

por ejemplo, cuando se le pregunta cómo ajustar el fe-n4, o1 puede decir que se basa en el ajuste del estado electrónico, pero ¿qué pasa si le pregunta?ajustar, se queda un poco atascado.

aunque hay menos tonterías que gpt4o, ninguno de ellos puede dar muchos consejos sobre temas específicos. la versión anterior pierde detalles y dice tonterías, mientras que la nueva versión tiene capacidades limitadas y se quedará sin palabras.

además de estos dos, la biología es definitivamente indispensable en la tercera ciencia y en las materias integrales.

también consultamosdr. xin de la universidad de tsinghua, estudiando biología., su pregunta es: " ¿cómo distinguir la lactilación y la modificación carboxietilada de residuos de lisina de un conjunto de datos de espectrometría de masas?

aunque no lo entendí, o1 también dio una respuesta muy larga, que era como una revisión en papel, con referencias adjuntas al final.

pero inesperadamente, cuando le dimos esta respuesta al dr. xin, descubrió que algo andaba mal después de leerla y que era un problema real a primera vista.

no es que todas las respuestas de la ia estuvieran equivocadas; si lo inventas al azar en las referencias, ¡este artículo no existe en absoluto!

aunque ha sido editado, no está completamente editado. en términos generales, la universidad dr. tsinghua todavía siente que es mucho mejor que la ia anterior. al menos la capacidad de comprensión es visible a simple vista y la edición también es muy similar. . . .

sin embargo, existen diferencias en la evaluación de los títulos de doctorado en diferentes direcciones, que también pueden estar relacionadas con las propias áreas de especialización.

a juzgar por los puntajes oficiales de ciencias integrales, aunque el puntaje de gpt4o en biología es más alto que el de química y física, el o1 de esta vez es completamente diferente.

la puntuación de o1 en física alcanzó 92,8, que es mucho más alta que la de las otras dos materias. quizás por eso el dr. cui es más optimista al respecto.

en general, cuando se trata de superar el nivel de doctorado profesional, los médicos piensan que todavía es necesario frenar.

el dr. cui dijo sin rodeos que en el trabajo de investigación científica real, en la mayoría de los casos, los académicos tienen que hacerlo ellos mismos. la ia sólo puede proporcionar instrucciones generales, por lo que no tiene mucho sentido gastar dinero en una ia tan detallada.

élmás recomendado para estudiantes universitarios.si elige esta ia, si está en el nivel de maestría o doctorado, entonces las respuestas de la ia en realidad no cumplen con los estándares del instructor y definitivamente será criticado en la reunión del grupo.

el dr. xin de la universidad de tsinghua también sostiene esta opinión. sin mencionar la cuestión de la literatura sobre fabricación de alucinaciones de la ia, en términos de nivel profesional, la respuesta de la ia también lo es.sólo puedes engañar a tus compañeros, es decir, personas con diferentes direcciones en la misma disciplina principal; a los ojos de colegas jóvenes y personas especializadas en esta dirección, las deficiencias de la ia siguen siendo muy obvias.

el dr. k, de la universidad de pekín, profundizó más: cree que esta ia sólo puede decirse que tiene el nivel de un estudiante de maestría en cognición, pero es sólo un retoque y no puede decir nada sobre logros creativos.en términos de creatividad, la ia es muy inferior al nivel de una maestría., que también es un problema importante que la ia debe resolver.

en las evaluaciones de los médicos, parece que podemos captar un punto importante: la razón por la cual el modelo o1 es relativamente más fuerte es porque tiene un modelo cognitivo y de pensamiento de dimensiones superiores.

este es también el punto principal de esta actualización de o1. encontramos el artículo aprendiendo a razonar con llm en el sitio web oficial de openai. en el artículo afirmaron que la razón principal fue que utilizaron una larga cadena de pensamiento (cot, cadena de pensamiento) en lugar de la tradicional cadena de indicaciones (prompt chain). .

a primera vista parece un poco confuso. para decirlo sin rodeos, este modelo de gran tamaño ha cambiado la forma de pensar anterior donde preguntas y yo respondo.

en el modo anterior, responder preguntas sobre modelos grandes era como responder inconscientemente a la pregunta. por ejemplo, si me preguntaras de qué color es el cielo, respondería azul instantáneamente sin siquiera pensar en ello. en realidad, esto requiere que ya conozca este punto de conocimiento y luego le dé una respuesta directa.

pero esta larga cadena de pensamiento equivale no sólo a saber qué es el azul, sino también a razonar por qué es azul, la dispersión atmosférica y las longitudes de onda espectrales, todo lo cual debe tenerse en cuenta.

esto requiere que la ia tenga la capacidad de construir lógica, razonamiento y argumentación., no solo necesita hacer crecer su cerebro, sino que también necesita usarlo.

aunque el concepto de cadena de pensamiento fue propuesto por google en 2022, openai fue el primero en implementarlo esta vez.

durante la operación real, ahora que está hablando con el modelo o1, además de obtener respuestas, también puede optar por expandirse y ver su lógica de pensamiento al responder preguntas. su pensamiento es concreto y no una caja negra.

por ejemplo, tomemos la pregunta del dr. cui: "¿existe alguna forma de superar el ruido blanco en la distribución de fotones entrelazados a larga distancia?" el proceso de pensamiento del modelo o1 es el siguiente:

sin embargo, así como puede revertir problemas en los campos profesionales, parece que algunas preguntas simples en escenarios cotidianos también pueden dejarlo perplejo.

tomemos el ejemplo anterior de la comparación clásica entre 9.11 y 9.8. el internauta de xiaohongshu @小水 descubrió tan pronto como despertó que esta cosa "colapsa tan pronto como se alcanza la dificultad... bucle infinito y empuja la cadena del pensamiento ( cot) como loco"

nuestro departamento editorial también descubrió este problema durante su propia evaluación, pero cuando se le preguntó por qué, inmediatamente respondió que su razonamiento era incorrecto y luego lo volvió a deducir.

vale, vale, eres digno de ser médico, eres bueno encontrando errores, ¿verdad?

después de toda una ronda de pruebas, el crítico negativo tiene que admitir que, efectivamente, ha mejorado mucho. después de vernos durante tres días, realmente deberíamos mirarnos con admiración.

en términos de efecto, es de hecho mejor que la generación anterior, yla aplicación del pensamiento a largo plazo es algo bueno para el desarrollo futuro de la ia.

pero después de que varios médicos se turnaron para azotarlo, sus problemas quedaron claramente expuestos en algunos aspectos como la creatividad,no puede reemplazar a los expertos humanos con doctorado.

sin embargo, noam brown, investigador de openai, reveló que las versiones futuras de o1 tardarán horas, días o incluso semanas en pensar en esto, aunque esto consumirá más dinero, vale la pena el costo en tareas como el desarrollo de medicamentos contra el cáncer.

además, creo que el modelo de cadena de pensamiento implementado por gpt o1 probablemente será como la arquitectura transformer y la arquitectura dit anteriores.liderando el mundo hacia los grandes modelos

por lo tanto, el camino hacia agi no está cerca, pero tampoco está lejos. espero que los jugadores de varias compañías se turnen para aparecer a continuación.

escribir un articulo:naxi y los cuatro grandes

editar :jiang jiang y fideos

editor de arte :huanyan

imágenes, fuentes : openai, x, ibm, xiaohongshu, etc., red de origen de imágenes