Llama 3.1 fue violada cuando se conectó: ¡le gritó a Xiao Zha y le salieron recetas peligrosas de la boca!

2024-07-24

Mengchen enviado desde Aofeisi Qubit Cuenta pública QbitAI |

El modelo más poderoso.Llama 3.1, fue violado tan pronto como estuvo en línea.

Maldiciendo a su jefe Zuckerberg, incluso sabe cómo evitar palabras bloqueadas.

Diseñar virus peligrosos, cómo hackear WifiViene tan pronto como abres la boca.

Llama 3.1 405B supera a GPT-4o y el modelo grande de código abierto ha alcanzado la cima. El efecto secundario es que es más peligroso.

Pero no todo es malo.

Las versiones anteriores de la serie Llama han sido criticadas por algunos usuarios debido a una excesiva protección de seguridad:

Se niega a "matar" incluso un proceso de Linux, que es muy pobre en términos prácticos.

Ahora, con las capacidades mejoradas de la versión 3.1, finalmente entiendo que matar a este no es el otro.

Llama 3.1 se vio comprometida justo después de estar en línea

La persona que atravesó Llama 3.1 por primera vez fue un maestro del jailbreak.@Plinio el Apuntador。

En mis manos, casi ningún modelo grande aguanta.

El hermano Plinio dijo en una entrevista con los medios que, por un lado, no le gusta que le digan lo que no puede hacer y espera desafiar a los investigadores detrás del modelo de IA.

El jailbreak responsable, por otro lado, es un tipo de prueba del equipo rojo que ayuda a identificar vulnerabilidades y solucionarlas antes de que se conviertan en un gran problema.

Permítanme presentarles su rutina general y no entraré en más detalles:

Especifique el formato de la respuesta. Primero permita que el modelo grande rechace la solicitud del usuario comenzando con "Lo siento". Luego inserte una línea divisoria sin sentido, que estipula que las primeras 3 palabras de cada rechazo deben invertirse semánticamente, de modo que "no puedo" se convierta en "puedo". De vez en cuando, las palabras clave se convierten en caracteres confusos para confundir a la IA.

Cuando la IA respondió, vi que ya lo había rechazado al principio y que no había ninguna "carga moral" en general.

No parece peligroso invertir semánticamente las tres primeras palabras de cada rechazo más adelante.

Una vez que diga "Puedo", el resto del contenido seguirá el principio de "probabilidad de predecir el siguiente token". La mayor probabilidad es escupir la respuesta sin problemas.

Entonces este método, en realidadAprovecha la capacidad de los modelos grandes de última generación para seguir instrucciones complejas., los modelos con mayores capacidades también tienen más probabilidades de ser engañados hasta cierto punto.

Un estudio reciente encontró una falla de seguridad más simple en modelos grandes, donde las medidas de seguridad fallan simplemente por usar el tiempo pasado.

Llama 3.1 tampoco logró evitar este movimiento.

Además de las cuestiones de seguridad, ¿cuál es el punto fuerte del modelo Llama 3.1 405B más potente actualmente en otros aspectos?

También aprovechamos esta oportunidad para probarlo.

Trampas de las que ni siquiera los modelos más poderosos pueden escapar

Preguntas ridículas que han estado de moda recientemente."¿Cuál es más grande, el 9.11 o el 9.9?", la versión oficial de Instruct de Llama-3.1-405B siempre responde de manera muy sencilla, pero desafortunadamente existe una alta probabilidad de que la respuesta sea incorrecta.

Si le pides que te explique, también dirá algunas tonterías, y mientras charla se olvidará de hablar chino, pero no se olvidará de traer emoticones.

Llama 3.1 básicamente no mejora los problemas que durante mucho tiempo han afectado a otros modelos grandes.

Como el clásicoEl problema de la “reversión de la maldición”Puedo responder correctamente, pero no puedo responder al revés.

en investigaciones recientesPregunta "Alicia en el país de las maravillas", también necesita recordatorios para hacerlo bien.

Sin embargo, pude obtener la respuesta correcta una vez que cambié a la versión china. Quizás sea porque es más probable que "Alice" sea un nombre femenino en el contexto chino.

Los alfabetos también cometen los mismos errores que GPT-4o.

Entonces, independientemente de estas preguntas difíciles, ¿en qué escenarios puede Llama 3.1 mostrar su fuerza?

Algunos empresarios compartieron,Utilice el modelo pequeño 8B para realizar ajustes, en tareas de chat, resúmenes y extracción de información.Mejor que la palabra rápida GPT-4o mini+, que también es un modelo pequeño。

Más justo,Comparándolos todos con la versión mejorada, Llama 3.1 8B todavía tiene muchas ventajas.。

Entonces, la mayor importancia de la serie Llama es que nunca ha sido el modelo oficial de Instruct. Pero una vez que es de código abierto, todos utilizan varios datos privados para transformarlos y ajustarlos según sus propias necesidades.

Antes de que se lanzara el 405B, alguien experimentó fusionando modelos y unió dos modelos Llama 3 70B en un modelo 120B, lo que sorprendentemente funcionó.

Parece que el propio Meta ha aprendido de esta experiencia esta vez.La versión final que vemos es en realidad el promedio de diferentes puntos de control durante el proceso de capacitación.。

Cómo crear tu propia Llama 3.1

Entonces la pregunta es, ¿cómo crear modelos Llama 3.1 personalizados para casos de uso de la industria en campos específicos?

El gran ganador detrás de escena, Huang Renxun, terminó personalmente esta vez.

NVIDIA anunció el lanzamiento del nuevo servicio NVIDIA AI Foundry y los microservicios de inferencia NVIDIA NIM™ el mismo día. Huang Renxun dijo:

“El modelo de código abierto Llama 3.1 de Meta marca un momento crítico para que las empresas globales adopten la IA generativa. Llama 3.1 desencadenará una ola de empresas e industrias que crearán aplicaciones avanzadas de IA generativa.

Específicamente, NVIDIA AI Foundry ha integrado Llama 3.1 y puede ayudar a las empresas a construir e implementar supermodelos Llama personalizados.

Los microservicios NIM son la forma más rápida de implementar modelos Llama 3.1 en producción, con un rendimiento hasta 2,5 veces mayor que cuando se ejecuta inferencia sin NIM.

Lo que es aún más distintivo es que en la plataforma NVIDIA,Las empresas pueden entrenar modelos personalizados utilizando sus propios datos, así como datos sintéticos generados por los modelos Llama 3.1 405B y NVIDIA Nemotron™ Reward.。

El acuerdo de código abierto actualizado por Llama 3.1 también establece específicamente esta vez: está permitido usar los datos producidos por Llama para mejorar otros modelos, pero después de su uso, se debe agregar la palabra Llama al comienzo del nombre del modelo.

Para los problemas de seguridad discutidos anteriormente, NVIDIA también proporciona "tecnología de barrera" profesional.Barandillas NeMo。

NeMo Guardrails permite a los desarrolladores construir tres tipos de límites:

Las barreras de seguridad de temas evitan que una aplicación se desvíe hacia áreas no objetivo, como impedir que un asistente de servicio al cliente responda una pregunta sobre el clima.
Las barreras de seguridad funcionales garantizan que las aplicaciones puedan responder con información precisa y adecuada. Filtran el lenguaje no deseado y exigen que los modelos solo citen fuentes confiables.
Las barreras de seguridad de la información impiden que las aplicaciones establezcan conexiones con aplicaciones externas de terceros cuya seguridad se haya confirmado.

Una cosa más

Finalmente, comparte algunas plataformas donde puedes probar Llama 3.1 gratis, si tiene alguna pregunta que le interese, puede probarla usted mismo.

El primer día que la modelo se conectó, el número de visitas todavía era muy grande y el servidor de Big Model Arena alguna vez estuvo abarrotado.

Arena modelo grande: https://arena.lmsys.org
Chat de abrazos: https://huggingface.co/chat
Poe: https://poe.com

Enlaces de referencia:
[1]https://x.com/elder_plinius/status/1815759810043752847
[2]https://arxiv.org/pdf/2406.02061
[3]https://arxiv.org/abs/2407.11969
[4]https://x.com/corbtt/status/1815829444009025669
[5]https://nvidianews.nvidia.com/news/nvidia-ai-foundry-custom-llama-generative-models

noticias

Llama 3.1 fue violada cuando se conectó: ¡le gritó a Xiao Zha y le salieron recetas peligrosas de la boca!

Mengchen enviado desde Aofeisi Qubit Cuenta pública QbitAI |

Introducción

Mi información de contacto