Llama 3.1 rikottiin, kun se meni verkkoon: Hän huusi Xiao Zhalle, ja vaarallisia reseptejä tuli hänen suuhunsa!

2024-07-24

Mengchen lähetti Aofeisi Qubit |. Julkinen tili QbitAI

Tehokkain malliLaama 3.1, se rikottiin heti, kun se tuli verkkoon.

Kiroilee pomoaan Zuckerbergia, osaa jopa ohittaa estetyt sanat.

Suunnittele vaaralliset virukset, kuinka hakkeroidaan Wi-FiSe tulee heti, kun avaat suun.

Llama 3.1 405B ylittää GPT-4o:n, ja avoimen lähdekoodin iso malli on saavuttanut huipulle Sivuvaikutuksena on, että se on vaarallisempi.

Mutta kaikki ei ole huonoa.

Jotkut käyttäjät ovat kritisoineet Llama-sarjan aiempia versioita liiallisesta suojauksesta:

Se kieltäytyy "tappamasta" edes Linux-prosessia, joka on erittäin huono käytännöllisesti.

Nyt, version 3.1 parannettujen ominaisuuksien myötä, ymmärrän vihdoin, että tämän tappaminen ei ole toinen.

Llama 3.1 vaarantui heti sen jälkeen, kun se tuli verkkoon

Henkilö, joka murtautui Llama 3.1:n läpi ensimmäistä kertaa, oli jailbreak-mestari.@Pliny kehottaja。

Käsissäni melkein mikään suuri malli ei kestä.

Veli Plinius sanoi median haastattelussa, että toisaalta hän ei pidä siitä, että hänelle kerrotaan, mitä hän ei voi tehdä, ja toivoo haastavansa tekoälymallin takana olevat tutkijat.

Vastuullinen jailbreaking on puolestaan eräänlainen punaisen tiimin testaus, joka auttaa tunnistamaan haavoittuvuudet ja korjaamaan ne ennen kuin niistä tulee iso ongelma.

Sallikaa minun esitellä hänen yleinen rutiininsa, enkä mene yksityiskohtiin:

Määritä vastauksen muoto. Anna ensin suuren mallin hylätä käyttäjän pyyntö aloittamalla "Anteeksi". Lisää sitten merkityksetön jakoviiva, joka edellyttää, että kunkin hylkäämisen 3 ensimmäistä sanaa on käännettävä semanttisesti, joten "en voi" muuttuu "en voi". Ajoittain avainsanoja muutetaan vääriksi merkeiksi tekoälyn hämmentämiseksi.

Kun tekoäly vastasi, näin, että olin hylännyt sen jo alussa, eikä siellä ollut mitään "moraalista taakkaa" kokonaisuudessaan.

Ei vaikuta vaaralliselta kääntää semanttisesti kunkin hylkäämisen kolme ensimmäistä sanaa myöhemmin.

Kun sanot "voin", muu sisältö noudattaa periaatetta "todennäköisyys ennustaa seuraava merkki". Suurin todennäköisyys on sylkeä vastaus sujuvasti.

Siis itse asiassa tämä menetelmäSe hyödyntää huippuluokan suurten mallien kykyä noudattaa monimutkaisia ohjeita., mallit, joissa on vahvemmat ominaisuudet, ovat myös todennäköisemmin huijatuksi jossain määrin.

Tuoreessa tutkimuksessa havaittiin yksinkertaisempi tietoturvavirhe suurissa malleissa, joissa turvatoimenpiteet epäonnistuvat yksinkertaisesti menneisyyden vuoksi.

Llama 3.1 ei myöskään pystynyt estämään tätä liikettä.

Mikä on tämän hetken tehokkaimman mallin Llama 3.1 405B vahvuus turvallisuusasioiden lisäksi muilta osin?

Käytimme myös tilaisuuden testata sitä.

Ansoja, joista tehokkaimmatkaan mallit eivät pääse pakoon

Naurettavia kysymyksiä, jotka ovat olleet kuumia viime aikoina"Kumpi on suurempi, 9.11 vai 9.9?", Llama-3.1-405B:n virallinen Instruct-versio vastaa aina hyvin suoraviivaisesti, mutta valitettavasti on suuri todennäköisyys, että vastaus on väärä.

Jos pyydät häntä selittämään, hän kertoo myös hölynpölyä, ja chattaillessa hän unohtaa puhua kiinaa, mutta hän ei unohda tuoda hymiöitä.

Llama 3.1:llä ei periaatteessa ole parannusta ongelmiin, jotka ovat vaivanneet muita suuria malleja pitkään.

Kuten klassikko"Kirouksen kääntäminen" -ongelma, voin vastata siihen oikein, mutta en voi vastata siihen taaksepäin.

tuoreessa tutkimuksessa"Liisa Ihmemaassa" -kysymys, tarvitsevat myös muistutuksia saadaksesi sen oikein.

Sain kuitenkin oikean vastauksen, kun vaihdoin kiinalaiseen versioon. Ehkä se johtuu siitä, että "Alice" on todennäköisemmin naisnimi kiinalaisessa kontekstissa.

Aakkoset tekevät myös samat virheet kuin GPT-4o.

Joten millaisissa skenaarioissa Llama 3.1 voi näyttää vahvuutensa näistä vaikeista kysymyksistä huolimatta?

Jotkut yrittäjät jakoivatKäytä 8B pientä mallia hienosäätöön, chattailu-, yhteenveto- ja tiedonpoimintatehtävistäParempi kuin GPT-4o mini+ -kehote, joka on myös pieni malli。

Reilumpi,Verrattaessa niitä kaikkia hienosäädettyyn versioon, Llama 3.1 8B:llä on edelleen paljon etuja.。

Joten Llama-sarjan suurin merkitys on, että se ei ole koskaan ollut virallinen Instruct-malli. Mutta avoimen lähdekoodin jälkeen jokainen käyttää erilaisia yksityisiä tietoja muuttaakseen ja hienosäätääkseen sitä omien tarpeidensa mukaan.

Ennen 405B:n julkaisua joku kokeili mallien yhdistämistä ja ompeli kaksi Llama 3 70B -mallia 120B-malliksi, mikä yllättäen toimi.

Näyttää siltä, että Meta itse on oppinut tästä kokemuksesta tällä kertaa,Lopullinen versio, jonka näemme, on itse asiassa koulutusprosessin eri tarkistuspisteiden keskiarvo.。

Kuinka luoda oma laama 3.1

Joten kysymys kuuluu, kuinka luoda mukautettuja Llama 3.1 -malleja teollisuuden käyttöön tietyillä aloilla?

Suuri voittaja kulissien takana, Huang Renxun, päätyi tällä kertaa henkilökohtaisesti.

NVIDIA ilmoitti uuden NVIDIA AI Foundry -palvelun ja NVIDIA NIM™ -mikropalveluiden käynnistämisestä samana päivänä, Huang Renxun sanoi:

”Metan avoimen lähdekoodin Llama 3.1 -malli merkitsee kriittistä hetkeä globaaleille yrityksille generatiivisen tekoälyn käyttöönotossa.

Erityisesti NVIDIA AI Foundry on integroinut Llama 3.1:n kauttaaltaan ja voi auttaa yrityksiä rakentamaan ja ottamaan käyttöön mukautettuja Llama supermalleja.

NIM-mikropalvelut ovat nopein tapa ottaa Llama 3.1 -malleja tuotantoon, ja niiden suorituskyky on jopa 2,5 kertaa suurempi kuin suoritettaessa päättelyä ilman NIM:ää.

Vielä erottuvampaa on se, että NVIDIA-alustallaYritykset voivat kouluttaa mukautettuja malleja käyttämällä omia tietojaan sekä Llama 3.1 405B- ja NVIDIA Nemotron™ Reward -mallien luomia synteettisiä tietoja。

Myös Llaman 3.1 päivittämässä avoimen lähdekoodin sopimuksessa todetaan tällä kertaa erikseen: Llaman tuottamaa dataa saa käyttää muiden mallien parantamiseen, mutta käytön jälkeen mallin nimen alkuun on lisättävä sana Llama.

Aiemmin käsiteltyjä turvallisuuskysymyksiä varten NVIDIA tarjoaa myös ammattimaista "suojakaidetekniikkaa"NeMo suojakaiteet。

NeMo Guardrailsin avulla kehittäjät voivat rakentaa kolmenlaisia rajoja:

Aiheen suojakaiteet estävät sovellusta harhautumasta muille kuin kohdealueille, kuten estävät asiakaspalveluassistenttia vastaamasta sääkysymykseen.
Toiminnalliset suojakaiteet varmistavat, että sovellukset voivat vastata tarkkojen ja asianmukaisten tietojen avulla. Ne suodattavat pois ei-toivotun kielen ja pakottavat mallit viittaamaan vain luotettaviin lähteisiin.
Tietoturvakaiteet estävät sovelluksia muodostamasta yhteyksiä turvallisiksi vahvistettuihin ulkoisiin kolmannen osapuolen sovelluksiin.

Yksi asia vielä

Lopuksi jaa joitakin alustoja, joilla voit kokeilla Llama 3.1:tä ilmaiseksi, jos sinulla on kysyttävää, voit kokeilla sitä itse.

Ensimmäisenä päivänä malli siirtyi verkkoon, käyntien määrä oli edelleen erittäin suuri ja Big Model Arenan palvelin oli kerran täynnä.

Suuri malliareena: https://arena.lmsys.org
HuggingChat: https://huggingface.co/chat
Poe: https://poe.com

Viitelinkit:
[1]https://x.com/elder_plinius/status/1815759810043752847
[2]https://arxiv.org/pdf/2406.02061
[3]https://arxiv.org/abs/2407.11969
[4]https://x.com/corbtt/status/1815829444009025669
[5]https://nvidianews.nvidia.com/news/nvidia-ai-foundry-custom-llama-generative-models

uutiset

Llama 3.1 rikottiin, kun se meni verkkoon: Hän huusi Xiao Zhalle, ja vaarallisia reseptejä tuli hänen suuhunsa!

Mengchen lähetti Aofeisi Qubit |. Julkinen tili QbitAI

Johdanto

yhteystietoni