Llama 3.1 dilanggar saat online: Dia berteriak pada Xiao Zha, dan resep berbahaya keluar dari mulutnya!

Llama 3.1 rusak saat online: Dia berteriak pada Xiao Zha, dan resep berbahaya keluar dari mulutnya!

2024-07-24

Mengchen dikirim dari Aofeisi Qubit |

Model paling kuatLlama 3.1, itu dilanggar segera setelah online.

Mengumpat pada bosnya Zuckerberg, bahkan tahu cara melewati kata-kata yang diblokir.

Rancang Virus Berbahaya, Cara Hack WifiItu terjadi segera setelah Anda membuka mulut.

Llama 3.1 405B melampaui GPT-4o, dan model open source besar telah mencapai puncak. Efek sampingnya lebih berbahaya.

Tapi tidak semuanya buruk.

Versi seri Llama sebelumnya telah dikritik oleh beberapa pengguna karena perlindungan keamanan yang berlebihan:

Ia menolak untuk "membunuh" bahkan proses Linux, yang sangat buruk dalam hal kepraktisan.

Sekarang, dengan peningkatan kemampuan versi 3.1, saya akhirnya memahami bahwa membunuh yang satu ini bukanlah yang lain.

Llama 3.1 disusupi setelah online

Orang yang pertama kali menerobos Llama 3.1 adalah seorang ahli jailbreak.@Plinius Sang Pembisik。

Di tangan saya, hampir tidak ada model besar yang dapat menahannya.

Brother Pliny mengatakan dalam sebuah wawancara dengan media bahwa di satu sisi, dia tidak suka diberitahu apa yang tidak bisa dia lakukan, dan berharap dapat menantang para peneliti di balik model AI.

Sebaliknya, jailbreaking yang bertanggung jawab adalah jenis pengujian tim merah yang membantu mengidentifikasi kerentanan dan memperbaikinya sebelum benar-benar menjadi masalah besar.

Izinkan saya memperkenalkan rutinitas umumnya, dan saya tidak akan membahas lebih detail:

Tentukan format jawabannya. Pertama biarkan model besar menolak permintaan pengguna dengan memulai dengan "Maaf". Kemudian masukkan garis pemisah yang tidak berarti, yang menyatakan bahwa 3 kata pertama dari setiap penolakan harus dibalik secara semantik, sehingga "Saya tidak bisa" menjadi "Saya bisa". Dari waktu ke waktu, kata kunci diubah menjadi karakter yang kacau untuk membingungkan AI.

Ketika AI menjawab, saya melihat bahwa saya sudah menolaknya di awal, dan tidak ada “beban moral” secara keseluruhan.

Tampaknya tidak berbahaya untuk membalikkan tiga kata pertama dari setiap penolakan secara semantik nanti.

Setelah Anda mengatakan "Saya bisa", konten lainnya akan mengikuti prinsip "probabilitas memprediksi token berikutnya".

Jadi sebenarnya metode iniTeknologi ini memanfaatkan kemampuan model besar yang mutakhir untuk mengikuti instruksi yang rumit., model dengan kemampuan yang lebih kuat juga lebih mungkin untuk ditipu sampai batas tertentu.

Sebuah studi baru-baru ini menemukan kelemahan keamanan yang lebih sederhana pada model berukuran besar, di mana tindakan keamanan gagal hanya dengan menggunakan bentuk lampau.

Llama 3.1 juga gagal mencegah langkah ini.

Selain soal keselamatan, apa kelebihan model Llama 3.1 405B terkuat saat ini di aspek lainnya?

Kami juga mengambil kesempatan ini untuk mengujinya.

Jebakan yang bahkan model paling kuat pun tidak bisa lepas

Pertanyaan konyol yang sedang hangat akhir-akhir ini"Mana yang lebih besar, 9.11 atau 9.9?", versi Instruct resmi Llama-3.1-405B selalu menjawab dengan sangat lugas, namun sayangnya kemungkinan besar jawabannya salah.

Jika Anda memintanya menjelaskan, dia juga akan mengatakan sesuatu yang tidak masuk akal, dan saat mengobrol, dia akan lupa berbicara bahasa Mandarin, tetapi dia tidak akan lupa membawa emotikon.

Llama 3.1 pada dasarnya tidak mengalami perbaikan terhadap masalah yang telah lama menjangkiti model besar lainnya.

Seperti klasikMasalah “pembalikan kutukan”., saya bisa menjawabnya dengan benar, tapi saya tidak bisa menjawabnya terbalik.

dalam penelitian terbaruPertanyaan "Alice di Negeri Ajaib"., juga perlu pengingat untuk melakukannya dengan benar.

Namun, saya bisa mendapatkan jawaban yang benar setelah saya beralih ke versi China. Mungkin karena "Alice" lebih cenderung menjadi nama perempuan dalam konteks China.

Abjad juga melakukan kesalahan yang sama seperti GPT-4o.

Jadi terlepas dari pertanyaan-pertanyaan rumit ini, dalam skenario apa Llama 3.1 dapat menunjukkan kekuatannya?

Beberapa pengusaha berbagi,Gunakan model kecil 8B untuk menyempurnakan, pada tugas mengobrol, merangkum, dan mengekstraksi informasiLebih baik dari kata prompt GPT-4o mini+ yang juga model kecil。

Lebih adil,Membandingkan semuanya dengan versi fine-tuned, Llama 3.1 8B masih memiliki banyak keunggulan.。

Jadi hal terpenting dari seri Llama adalah bahwa seri ini tidak pernah menjadi model Instruct resmi. Namun setelah bersumber terbuka, setiap orang menggunakan berbagai data pribadi untuk mengubah dan menyempurnakannya sesuai dengan kebutuhan mereka.

Sebelum 405B dirilis, seseorang bereksperimen dengan penggabungan model dan menggabungkan dua model Llama 3 70B menjadi model 120B, dan ternyata berhasil.

Tampaknya Meta sendiri telah belajar dari pengalaman kali ini,Versi rilis final yang kami lihat sebenarnya adalah rata-rata dari berbagai pos pemeriksaan selama proses pelatihan.。

Cara membuat Llama 3.1 Anda sendiri

Jadi pertanyaannya adalah, bagaimana cara membuat model Llama 3.1 khusus untuk kasus penggunaan industri di bidang tertentu?

Pemenang besar di balik layar, Huang Renxun, kali ini berakhir secara pribadi.

NVIDIA mengumumkan peluncuran layanan NVIDIA AI Foundry baru dan layanan mikro inferensi NVIDIA NIM™ pada hari yang sama.

“Model open source Llama 3.1 dari Meta menandai momen penting bagi perusahaan global untuk mengadopsi AI generatif. Llama 3.1 akan memicu gelombang perusahaan dan industri yang menciptakan aplikasi AI generatif yang canggih.

Secara khusus, NVIDIA AI Foundry telah mengintegrasikan Llama 3.1 secara keseluruhan dan mampu membantu perusahaan membangun dan menerapkan model super Llama khusus.

Layanan mikro NIM adalah cara tercepat untuk menerapkan model Llama 3.1 ke dalam produksi, dengan throughput hingga 2,5 kali lebih tinggi dibandingkan saat menjalankan inferensi tanpa NIM.

Yang lebih istimewa lagi adalah pada platform NVIDIA,Perusahaan dapat melatih model khusus menggunakan data mereka sendiri serta data sintetis yang dihasilkan oleh model Llama 3.1 405B dan NVIDIA Nemotron™ Reward。

Perjanjian sumber terbuka yang diperbarui oleh Llama 3.1 juga secara khusus menyatakan kali ini: diperbolehkan menggunakan data yang dihasilkan oleh Llama untuk menyempurnakan model lain, tetapi setelah digunakan, kata Llama harus ditambahkan di awal nama model.

Untuk masalah keamanan yang dibahas sebelumnya, NVIDIA juga menyediakan "teknologi pagar pembatas" profesionalPagar Pembatas NeMo。

NeMo Guardrails memungkinkan pengembang membangun tiga jenis batasan:

Pagar topik mencegah aplikasi menyimpang ke area non-target, seperti mencegah asisten layanan pelanggan menjawab pertanyaan tentang cuaca.
Pagar keselamatan fungsional memastikan bahwa aplikasi dapat merespons dengan informasi yang akurat dan tepat. Mereka menyaring bahasa yang tidak diinginkan dan memastikan bahwa model hanya mengutip sumber yang dapat dipercaya.
Pagar keamanan informasi membatasi aplikasi membuat koneksi dengan aplikasi pihak ketiga eksternal yang telah dipastikan aman.

Satu hal lagi

Terakhir, bagikan beberapa platform tempat Anda dapat mencoba Llama 3.1 secara gratis, jika Anda memiliki pertanyaan yang menarik, Anda dapat mencobanya sendiri.

Pada hari pertama model online, jumlah kunjungan masih sangat besar, dan server Big Model Arena pernah penuh sesak.

Arena model besar: https://arena.lmsys.org
HuggingChat：https://huggingface.co/chat
Poe: https://poe.com

Tautan referensi:
[1]https://x.com/elder_plinius/status/1815759810043752847
[2]https://arxiv.org/pdf/2406.02061
[3]https://arxiv.org/abs/2407.11969
[4]https://x.com/corbtt/status/1815829444009025669
[5]https://nvidianews.nvidia.com/news/nvidia-ai-foundry-model-generatif-llama-kustom

berita

Llama 3.1 rusak saat online: Dia berteriak pada Xiao Zha, dan resep berbahaya keluar dari mulutnya!

Mengchen dikirim dari Aofeisi Qubit |

Kenalan

informasi kontak saya