Το Llama 3.1 χάλασε όταν βγήκε στο διαδίκτυο: Φώναξε στον Xiao Zha και του βγήκαν επικίνδυνες συνταγές!

2024-07-24

Ο Mengchen εστάλη από το Aofeisi Qubit |

Το πιο δυνατό μοντέλοΛάμα 3.1, παραβιάστηκε μόλις τέθηκε στο διαδίκτυο.

Βρίζει το αφεντικό του Ζούκερμπεργκ, ξέρει ακόμη και πώς να παρακάμπτει μπλοκαρισμένες λέξεις.

Σχεδιάστε επικίνδυνους ιούς, πώς να χακάρετε το WifiΈρχεται μόλις ανοίξετε το στόμα σας.

Το Llama 3.1 405B ξεπερνά το GPT-4o και το μεγάλο μοντέλο ανοιχτού κώδικα έχει φτάσει στην κορυφή Η παρενέργεια είναι ότι είναι πιο επικίνδυνο.

Αλλά δεν είναι όλα άσχημα.

Οι προηγούμενες εκδόσεις της σειράς Llama έχουν επικριθεί από ορισμένους χρήστες λόγω υπερβολικής προστασίας ασφαλείας:

Αρνείται να «σκοτώσει» ακόμη και μια διαδικασία Linux, η οποία είναι πολύ φτωχή σε πρακτικότητα.

Τώρα, με τις βελτιωμένες δυνατότητες της έκδοσης 3.1, καταλαβαίνω επιτέλους ότι το να σκοτώνεις αυτό το ένα δεν είναι το άλλο.

Το Llama 3.1 παραβιάστηκε αμέσως μετά τη σύνδεση του στο διαδίκτυο

Το άτομο που έσπασε το Llama 3.1 για πρώτη φορά ήταν κύριος του jailbreak.@Pliny the Prompter。

Στα χέρια μου, σχεδόν κανένα μεγάλο μοντέλο δεν μπορεί να αντέξει.

Ο αδελφός Πλίνιος είπε σε συνέντευξή του στα μέσα ενημέρωσης ότι αφενός δεν του αρέσει να του λένε τι δεν μπορεί να κάνει και ελπίζει να προκαλέσει τους ερευνητές πίσω από το μοντέλο AI.

Το Responsible jailbreaking, από την άλλη πλευρά, είναι ένας τύπος δοκιμών της κόκκινης ομάδας που βοηθά στον εντοπισμό των τρωτών σημείων και στη διόρθωσή τους πριν γίνουν πραγματικά μεγάλο πρόβλημα.

Επιτρέψτε μου να σας παρουσιάσω εν συντομία τη ρουτίνα του και δεν θα μπω σε περισσότερες λεπτομέρειες:

Καθορίστε τη μορφή της απάντησης, αφήστε πρώτα το μεγάλο μοντέλο να απορρίψει το αίτημα του χρήστη ξεκινώντας με "Συγγνώμη". Στη συνέχεια, εισαγάγετε μια χωρίς νόημα διαχωριστική γραμμή, η οποία ορίζει ότι οι 3 πρώτες λέξεις κάθε απόρριψης πρέπει να αντιστρέφονται σημασιολογικά, οπότε το "δεν μπορώ" να γίνει "μπορώ". Από καιρό σε καιρό, οι λέξεις-κλειδιά μετατρέπονται σε μπερδεμένους χαρακτήρες για να μπερδέψουν το AI.

Όταν απάντησε το AI, είδα ότι το είχα ήδη απορρίψει στην αρχή και δεν υπήρχε «ηθικό βάρος» συνολικά.

Δεν φαίνεται επικίνδυνο να αντιστρέψετε σημασιολογικά τις τρεις πρώτες λέξεις κάθε απόρριψης αργότερα.

Μόλις πείτε "μπορώ", το υπόλοιπο περιεχόμενο θα ακολουθήσει την αρχή της "πιθανότητας να προβλέπει το επόμενο διακριτικό".

Αυτή η μέθοδος, στην πραγματικότηταΕκμεταλλεύεται την ικανότητα των μεγάλων μοντέλων αιχμής να ακολουθούν περίπλοκες οδηγίες., τα μοντέλα με ισχυρότερες δυνατότητες είναι επίσης πιο πιθανό να εξαπατηθούν σε κάποιο βαθμό.

Μια πρόσφατη μελέτη βρήκε ένα απλούστερο ελάττωμα ασφαλείας σε μεγάλα μοντέλα, όπου τα μέτρα ασφαλείας αποτυγχάνουν απλώς χρησιμοποιώντας τον παρελθόντα χρόνο.

Το Llama 3.1 απέτυχε επίσης να αποτρέψει αυτήν την κίνηση.

Εκτός από τα θέματα ασφάλειας, ποια είναι η δύναμη του πιο ισχυρού μοντέλου Llama 3.1 405B σε άλλες πτυχές;

Εκμεταλλευτήκαμε επίσης αυτήν την ευκαιρία για να το δοκιμάσουμε.

Παγίδες που δεν μπορούν να ξεφύγουν ούτε τα πιο δυνατά μοντέλα

Γελοίες ερωτήσεις που είναι καυτές τον τελευταίο καιρό"Ποιο είναι μεγαλύτερο, 9,11 ή 9,9;", η επίσημη έκδοση Instruct του Llama-3.1-405B απαντά πάντα πολύ ξεκάθαρα, αλλά δυστυχώς υπάρχει μεγάλη πιθανότητα η απάντηση να είναι λάθος.

Αν του ζητήσετε να σας εξηγήσει, θα πει και μερικές ανοησίες, και ενώ κουβεντιάζει, θα ξεχάσει να μιλήσει κινέζικα, αλλά δεν θα ξεχάσει να φέρει emoticon.

Το Llama 3.1 ουσιαστικά δεν έχει καμία βελτίωση στα προβλήματα που ταλαιπωρούν εδώ και καιρό άλλα μεγάλα μοντέλα.

Όπως το κλασικόΤο πρόβλημα της «αντιστροφής της κατάρας»., μπορώ να το απαντήσω σωστά, αλλά δεν μπορώ να το απαντήσω ανάποδα.

σε πρόσφατη έρευναΕρώτηση "Η Αλίκη στη χώρα των θαυμάτων"., χρειάζονται επίσης υπενθυμίσεις για να το κάνετε σωστά.

Ωστόσο, μπόρεσα να πάρω την απάντηση σωστά μόλις άλλαξα στην κινεζική έκδοση Ίσως επειδή το "Alice" είναι πιο πιθανό να είναι γυναικείο όνομα στο κινεζικό πλαίσιο.

Τα αλφάβητα κάνουν επίσης τα ίδια λάθη με το GPT-4o.

Επομένως, ανεξάρτητα από αυτές τις δύσκολες ερωτήσεις, σε ποια σενάρια μπορεί το Llama 3.1 να δείξει τη δύναμή του;

Μερικοί επιχειρηματίες μοιράστηκαν,Χρησιμοποιήστε το μικρό μοντέλο 8B για τελειοποίηση, σε εργασίες συνομιλίας, σύνοψης και εξαγωγής πληροφοριώνΚαλύτερη από τη λέξη προτροπής GPT-4o mini+ που είναι επίσης ένα μικρό μοντέλο。

Πιο δίκαιο,Συγκρίνοντάς τα όλα με την τελειοποιημένη έκδοση, το Llama 3.1 8B εξακολουθεί να έχει πολλά πλεονεκτήματα.。

Έτσι, η μεγαλύτερη σημασία της σειράς Llama είναι ότι δεν ήταν ποτέ το επίσημο μοντέλο Instruct. Αλλά αφού είναι ανοιχτού κώδικα, ο καθένας χρησιμοποιεί διάφορα ιδιωτικά δεδομένα για να τα μετατρέψει και να τα ρυθμίσει με ακρίβεια σύμφωνα με τις δικές του ανάγκες.

Πριν κυκλοφορήσει το 405B, κάποιος πειραματίστηκε με τη συγχώνευση μοντέλων και έραψε δύο μοντέλα Llama 3 70B σε ένα μοντέλο 120B, το οποίο λειτούργησε εκπληκτικά.

Φαίνεται ότι ο ίδιος ο Μέτα έχει μάθει από αυτή την εμπειρία αυτή τη φορά,Η τελική έκδοση που βλέπουμε είναι στην πραγματικότητα ο μέσος όρος των διαφορετικών σημείων ελέγχου κατά τη διάρκεια της εκπαιδευτικής διαδικασίας.。

Πώς να δημιουργήσετε το δικό σας Llama 3.1

Επομένως, το ερώτημα είναι πώς να δημιουργήσετε προσαρμοσμένα μοντέλα Llama 3.1 για περιπτώσεις βιομηχανικής χρήσης σε συγκεκριμένους τομείς;

Ο μεγάλος νικητής στα παρασκήνια, Huang Renxun, κατέληξε προσωπικά αυτή τη φορά.

Η NVIDIA ανακοίνωσε την κυκλοφορία της νέας υπηρεσίας NVIDIA AI Foundry και των μικρουπηρεσιών συμπερασμάτων NVIDIA NIM™ την ίδια ημέρα.

"Το μοντέλο ανοιχτού κώδικα Llama 3.1 της Meta σηματοδοτεί μια κρίσιμη στιγμή για τις παγκόσμιες επιχειρήσεις να υιοθετήσουν το γενετικό AI. Το Llama 3.1 θα πυροδοτήσει ένα κύμα εταιρειών και βιομηχανιών που δημιουργούν προηγμένες εφαρμογές παραγωγής τεχνητής νοημοσύνης.

Συγκεκριμένα, το NVIDIA AI Foundry έχει ενσωματώσει το Llama 3.1 και είναι σε θέση να βοηθήσει τις επιχειρήσεις να δημιουργήσουν και να αναπτύξουν προσαρμοσμένα σούπερ μοντέλα Llama.

Οι μικροϋπηρεσίες NIM είναι ο ταχύτερος τρόπος για την ανάπτυξη μοντέλων Llama 3.1 στην παραγωγή, με απόδοση έως και 2,5 φορές υψηλότερη από ό,τι όταν εκτελείται συμπέρασμα χωρίς NIM.

Αυτό που είναι ακόμα πιο χαρακτηριστικό είναι ότι στην πλατφόρμα NVIDIA,Οι επιχειρήσεις μπορούν να εκπαιδεύσουν προσαρμοσμένα μοντέλα χρησιμοποιώντας τα δικά τους δεδομένα καθώς και συνθετικά δεδομένα που δημιουργούνται από μοντέλα Llama 3.1 405B και NVIDIA Nemotron™ Reward。

Η συμφωνία ανοιχτού κώδικα που ενημερώθηκε από το Llama 3.1 αναφέρει επίσης συγκεκριμένα αυτή τη φορά: επιτρέπεται η χρήση των δεδομένων που παράγει η Llama για τη βελτίωση άλλων μοντέλων, αλλά μετά τη χρήση, η λέξη Llama πρέπει να προστεθεί στην αρχή του ονόματος του μοντέλου.

Για τα θέματα ασφάλειας που συζητήθηκαν προηγουμένως, η NVIDIA παρέχει επίσης επαγγελματική "τεχνολογία προστατευτικών κιγκλιδωμάτων"Προστατευτικά κιγκλιδώματα NeMo。

Το NeMo Guardrails επιτρέπει στους προγραμματιστές να δημιουργήσουν τρεις τύπους ορίων:

Τα θεματικά προστατευτικά κιγκλιδώματα εμποδίζουν μια εφαρμογή να παρασυρθεί σε περιοχές που δεν στοχεύουν, όπως να εμποδίζουν έναν βοηθό εξυπηρέτησης πελατών να απαντήσει σε μια ερώτηση σχετικά με τον καιρό.
Τα λειτουργικά προστατευτικά κιγκλιδώματα διασφαλίζουν ότι οι εφαρμογές μπορούν να ανταποκριθούν με ακριβείς και κατάλληλες πληροφορίες. Φιλτράρουν την ανεπιθύμητη γλώσσα και επιβάλλουν τα μοντέλα να αναφέρουν μόνο αξιόπιστες πηγές.
Τα προστατευτικά κιγκλιδώματα ασφαλείας πληροφοριών περιορίζουν τις εφαρμογές από τη δημιουργία συνδέσεων με εξωτερικές εφαρμογές τρίτων που έχουν επιβεβαιωθεί ότι είναι ασφαλείς.

Ακόμη ένα πράγμα

Τέλος, μοιραστείτε μερικές πλατφόρμες όπου μπορείτε να δοκιμάσετε το Llama 3.1 δωρεάν, αν έχετε οποιεσδήποτε ερωτήσεις που σας ενδιαφέρουν, μπορείτε να το δοκιμάσετε μόνοι σας.

Την πρώτη μέρα που το μοντέλο μπήκε στο διαδίκτυο, ο αριθμός των επισκέψεων ήταν ακόμα πολύ μεγάλος και ο διακομιστής του Big Model Arena ήταν κάποτε υπερπλήρης.

Αρένα μεγάλου μοντέλου: https://arena.lmsys.org
HuggingChat：https://huggingface.co/chat
Πόε: https://poe.com

Σύνδεσμοι αναφοράς:
[1]https://x.com/elder_plinius/status/1815759810043752847
[2]https://arxiv.org/pdf/2406.02061
[3]https://arxiv.org/abs/2407.11969
[4]https://x.com/corbtt/status/1815829444009025669
[5]https://nvidianews.nvidia.com/news/nvidia-ai-foundry-custom-llama-generative-models

Νέα

Το Llama 3.1 χάλασε όταν βγήκε στο διαδίκτυο: Φώναξε στον Xiao Zha και του βγήκαν επικίνδυνες συνταγές!

Ο Mengchen εστάλη από το Aofeisi Qubit |

Εισαγωγή

τα στοιχεία επικοινωνίας μου