noticias

hicimos una videollamada a la ia y descubrimos que parecía poder hablar de todo. . .

2024-08-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


en la conferencia openai hace tres meses, creo que algunos de ustedes vieron gpt-4o. era como una persona real.capacidades de conversación de video sedosas.

también está el proyecto astra lanzado por google, que no es inferior al gpt-4o en términos de resistencia.


en ese momento, casi todo internet se jactaba de lo poderosas que habían evolucionado las capacidades interactivas de la ia, y se utilizaban términos como épico y siguiente nivel.

¿qué pasó? la función de videollamada prometida por gpt-4o se ha retrasado una y otra vez desde hace varios meses.todos y cada uno de ellos están casi cabreados por los malos críticos. . .

sin embargo, descubrí que parece haber una regla en el círculo de la ia, es decir, no se puede hacer que la gente espere demasiado por cosas buenas. verá, sora ha sido reservado durante más de medio año. como resultado, keling, luma ai y zhipu qingying han aparecido uno tras otro.

en los últimos dos días, en la conferencia de minería de datos kdd en barcelona, ​​​​zhipu estuvo frente a la comunidad académica y la industria global.no solo se lanzó el último modelo base grande glm-4-plus, sino que también se actualizó la función de videollamada de zhipu qingyan.


permítanme resaltar los puntos clave para todos.es el de la leyenda que puede ver y chatear.aila función de videollamada ahora está disponible directamente en la aplicación qingyan. primero puede descargar la aplicación y solicitar una prueba.

no hablemos de nada más. en comparación con openai, la velocidad de zhipu ya es mejor que la de openai. . .

por lo tanto, tan pronto como se lanzó la función de videollamadas de qingyan, el sr. bianbing fue el primero en utilizarla. abra la aplicación qingyan, haga clic en el botón de llamada en la esquina inferior derecha, luego cambie al video y comience a reproducir directamente ~


los amigos también deben saber que una de las razones importantes por las que gpt-4o es tan popular es que tiene una capacidad muy poderosa para comprender videos.

en cuanto a lo más básico, primero es necesario probar la capacidad de comprensión de videos de qingyan, ¿verdad?

el crítico le dio a qingyan un vistazo a la sala de conferencias donde nuestro departamento editorial generalmente hace una lluvia de ideas, para ver si podía adivinar lo que estaba haciendo en función del entorno circundante. también agitó deliberadamente la cámara sin mantener el video completamente quieto.

adivina qué, el solo hecho de decir "vaya, adivina lo que estás haciendo" casi me hace pasar un mal rato. pero sentarse a la mesa en la sala de conferencias no está mal. los vasos de papel sobre la mesa, el mando a distancia y el televisor al lado también se describen con bastante precisión.

cuando puse la lente en la computadora de mi colega, pude ver que estaba editando un video.

no me digas, este tipo de capacidad de percibir el entorno general que te rodea solo se ha visto antes en la demostración de openai y google. hoy, realmente lo experimenté como si la ciencia ficción se hubiera hecho realidad.

además, qingyan es el mismo que lo demuestra gpt-4o.puedes interrumpir en cualquier momento durante la conversación.de vez en cuando, también usará las palabras modales "ouch" y "ouch", y se reirá antes de hablar, como si charlara con una persona real.

luego, probé la función de reconocimiento de objetos específicos para ver la reserva de conocimientos de qingyan.

a partir del escaneo más simple de la estación de trabajo, básicamente no faltan elementos grandes como teclados blancos, ratones negros y monitores. también se describen claramente las direcciones frontal, trasera, izquierda y derecha de los objetos, incluso los auriculares enchufables y. los personajes de dibujos animados en el cristal no se escatimaron en detalles.

no puedo decir el 100%, pero en esta mesaal menos 80%-90%todo fue visto por qingyan.

además, qingyan también tiene otra función, es decirreconocimiento de círculos, rodeé el gran estéreo de mi colega desde la distancia. conocía la marca, el modelo e incluso su propósito específico.

aunque hay palabras en los altavoces, todos deberían poder ver la claridad. es difícil verlo a simple vista. debo decir que los ojos claros son realmente fáciles de usar. . .

además, también encontré queel reconocimiento de objetos por parte de qingyan va más allá de las simples categorías.

por ejemplo, si pregunta si este controlador de juego es de sony o microsoft, puede analizarlo según el diseño de la forma del controlador. esta es la xbox de microsoft. en lugar de simplemente decirte que se trata de un mando de juego, o simplemente confundirlo y no poder explicarlo claramente.

también están los detalles de este teléfono antiguo, nokia, el modelo específico es n95 y el modelo clásico de 2007.

más tarde, le pedí a qingyan que identificara el sistema informático, adivinara la edad de tony mirando las fotos de tony y adivinara los nombres de las personas mirando las fotos de celebridades. . . digámoslo de esta manera, desde que comencé a usar qingyan, ahora quiero abrir una videollamada y preguntar sobre cualquier cosa que capte.

por supuesto, es divertido. en realidad, existen muchas formas de videollamadas.escenarios prácticos

tomemos como ejemplo la búsqueda diaria de temas y materiales por parte de nuestro departamento editorial. los puntos calientes en la industria automotriz estos dos días son básicamente inseparables del salón del automóvil de chengdu. en este momento, puede preguntarle a qingyan sobre el salón del automóvil de chengdu y buscar. temas durante la conversación.

principalmente, también descubrí que qingyan tienefunción de memoria, hablé con él sobre esto en la última videollamada, y la siguiente vez que lo abrí, apareció y me preguntó qué vehículos de nueva energía en el salón del automóvil seguía.

también está la tutoría de tareas, que es lo más problemático para los padres. en el pasado, la interacción de la ia todavía se basaba en tomar fotografías y cargar preguntas, pero si se reemplaza por videollamadas, será lo mismo que uno a uno. tutoría de una tarea con tutores en línea.

intenté pedirle a qingyan que resolviera algunos problemas matemáticos de baja dificultad.algunas preguntas simples de álgebra en la escuela primaria y secundaria apenas se pueden resolver.

no sé si has notado que al resolver problemas, qingyan no te contará todo el proceso de una vez, ni te dará solo un resultado. te guiará paso a paso, permitiéndote tener un proceso de pensamiento.

además de las matemáticas, también probé el chino y el inglés uno por uno. no se puede decir que qingyan sea un profesor experimentado, pero.es completamente suficiente para la tarea diaria, memorizar palabras y memorizar poemas antiguos.

si crees que estas escenas no son suficientes, usemos un poco más de imaginación.

no tengo experiencia cocinando por primera vez, la bombilla de mi habitación está rota y no sé cómo cultivar plantas verdes. . . si encuentra cosas similares en la vida y no sabe qué hacer, ¿por qué no preguntarle a qingyan?

por ejemplo, es posible que muchos niños no puedan distinguir los polos positivo y negativo de la batería por el momento, por lo que fingimos instalar la batería de la calculadora al revés y descubrimos cuál era el problema en solo unas pocas palabras, lo que demuestra que todavía tiene sentido común en la vida.

de todos modos, uso qingyan estos días. me gusta buscarlo cuando no tengo nada que hacer. además, este dispositivo es particularmente capazproporcionar valor emocional, deja que cuente historias y chistes, y responde a cada frase.

juega al blackjack con amigos e incluso puede actuar como árbitro.

me pregunto si podremos evolucionar hasta el punto en que podamos jugar mahjong en el futuro y dejar que la ia tome el control. ¿no es esto más interesante que las conversaciones escritas y de voz originales?

para ser honesto, esta importante actualización de qingyan todavía me trajo muchas sorpresas, pero a veces todavía hay muchos pequeños defectos.puede decir tonterías, identificar erróneamente cosas y decir algunas tonterías.


por ejemplo, cuando era árbitro de blackjack, una vez dije que un 9 era un 4 y una espada era un trébol. . .

sin embargo, con solo hacer que las videollamadas con ia estén disponibles en china antes que openai y google,también tenemos que darle el visto bueno a zhipu.

esta vez, el primer lote de funciones de videollamada solo estará disponible para algunos usuarios. zhipu ampliará gradualmente la escala para que todos los empleados puedan utilizarla lo antes posible. si ustedes son realmente codiciosos,puede descargar la aplicación qingyan o iniciar sesión en la pc (chatglm.cn) para solicitar pruebas internas en el sitio.

además, puede haber muchos amigos que no estén familiarizados con zhipu. digámoslo de esta manera, también se puede decir que esta empresa es la mejor en el círculo de la ia.pollo frito popular.


especialmente este año, sus acciones en modelos grandes son extremadamente feroces, desde la iteración loca de modelos grandes básicos hasta la implementación frecuente de aplicaciones de modelos grandes, las acciones de zhipu nunca se han detenido.

en este kdd, su nuevo modelo grande glm-4-plus ha logrado grandes mejoras en la comprensión del lenguaje y los textos largos.


además, zhipu ha insistido en hacer que los modelos sean de código abierto. los datos muestran que las descargas acumuladas de los modelos de código abierto de zhipu han sido.superó los 20 millones.

de todos modos, zhipu está tomando la iniciativa en crear tal "conmoción" esta vez. se estima que los círculos de ia nacionales e incluso extranjeros pronto marcarán el comienzo de una ola de nuevos productos locos.


naturalmente, esto es algo bueno para nosotros, los usuarios. especialmente para las videollamadas con ia, una nueva forma de interacción. cuanto más avanzas, mayor es el margen para la imaginación en los escenarios de aplicación.

por ejemplo, si la ia se instala en gafas o collares, es posible que en el futuro ni siquiera necesite un teléfono móvil, o se puede instalar en la muleta de una persona ciega para ayudar a guiar el camino, o se puede combinar con inteligencia incorporada para permitirle que el robot entienda realmente lo que ve.

para tomar prestadas las palabras del director ejecutivo de zhipu, zhang peng:"al menos no lo hemos visto todavía (ai) techo tecnológico”.

también se podría pensar en hasta qué punto evolucionará la ia en el futuro y qué valor creará.

escribir un articulo: xixi

editar:jiangjiang

editor de arte:huanyan

imágenes, fuentes

palabras claras de sabiduría

parte de la red de fuentes de imágenes.