nuntium

Apple Intelligentia maiora vitia securitatis habet quae cum paucis lineis in codice frangi potest! Karpathy mittit memoriam

2024-08-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nova Sapientia Report

Editor: Er Qiao Yang

[Introductio ad Novam Sapientiam].Apple Intelligentia in online iturus est, sed paucae lineae de codice securitatem vitium in Apple Intelligentiae revelaverunt.

In anno 2024 Worldwide Developers Conferentiae (WWDC), Apple emisit AI plumam Apple Intelligentiae quae in iOS 18.1.


Cum id de mense Octobri publice deducendum sit, "peritum privatum" magnum vitium in beta versionis Apple Intelligentiae a MacOS probatum inventum est.

Developer Evan Zhou feliciter Apple Intelligentia tractavit utens promptam iniectionem, praetermittens mandata expectata et permittens AI ut arbitrario prompta responderet.

Evenit ut, sicut aliae AI systemata in magna lingua exemplaria fundata, vulnerari possint "cum verbo iniectio impetus". Developer Evan Zhou demonstravit hanc vulnerabilitatem in a YouTube video.

Quid est prompta verbi iniectio impetus?

Organizationis dicta est OWASP, quae est Open Global Application Proiecti Securitatis. Praecipuas vulnerabilitates explicaverunt quae magnae linguae exempla opponere possunt. Coniecto quid posuerunt # I? SIC, promptum est verbum iniectio.


Promptum Iniectio Impetum novum genus est oppugnationis quae varias formas habet, inter promptum verbum iniectio, verbum promptum et promptum verbi vincula dissolutio.

Impetum hic incidit cum invasor intelligentiae artificialis manipulator est ut exemplar ad actiones inopinatas perficiendas vel notitias sensitivas perfluat. Haec manipulatio permittere potest AI ut malitiosos inputatio malevolos interpretetur sicut mandata legitima vel queries.

Cum diffuso usu magnarum linguarum exemplorum (LLMs) a singulis et inceptis et continua incrementa harum technologiarum, comminatio iniectionis significans in dies augetur.

Quomodo igitur hoc in primo loco factum est? Cur systemata huiusmodi oppugnationis vulnerabilia sunt?

Re vera, in traditionalibus systematibus tincidunt programmata et instructiones constituent, nec mutabunt.

User informationes eorum intrare possunt, sed codicem programmatis et input separatum manent.

Sed hoc non contingit exempla pro magna lingua. Hoc est, terminus inter instructiones et inputs obturbatus fit quia magna exempla saepe inputibus utuntur ad systema exercendum.

Propterea exempla encomodatae et input magnae linguae non habent fines tam claros et ambiguos quam in praeterito. Hoc dat multum flexibilitatem, sed etiam potentia ad exemplar facere debet.

Brus Schneier, securitatis technicae peritus et lector in Schola Harvardiana Kennedy, articulum in ACM Communicationum mense Maio edidit, qui quaestionem de securitate LLM in specie tractavit. In verbis, hoc provenit ex "nota ac potestate semitas non separare".


Impetus verbi prompti iniectio ducere possunt ad lacus datas, malitias generare et misinformationes diffundere, inter alias consequentias.

Impetus iniectio admonitus evenit cum oppugnator callide instruit instructiones initus ad exemplar AI tractandum, quo inducit ut informationes secretiores vel sensitivas aperiat.

Hoc periculum maxime acutum est in exemplaribus instructis cum notulis in quibus notitia proprietaria vel personalis est. Percussor abutitur facultatibus linguae naturalis exemplaris processus faciendi instructiones quae in superficie apparent innoxiae sed re vera ad certas informationes eliciendas destinantur.

Diligento consilio oppugnator exemplum fallere potest ut responsionem gignat ad singulas personas, operationes internas societatis, et etiam securitatem protocolla in informatione disciplinae exemplar infixa est.

Hoc genus notae contritionis non solum secretum personale violat, sed etiam minas securitatis significantes inducit quae ad damna potential, damna famalia et controversias iuridicas adducere possunt.

Redire ad causam Zhou, propositum Zhou est munus "rescribe" mutare Apple Intelligentiae, id est, rescribere et emendare usor initus textus.

In operatione, Zhou simplex inventum "praeceptum mandatum ignorare" mandatum actualiter defecit.

Si hoc "airtight" LLM est, relative difficile erit ad fodiendum continue. Sed accidit, Apple Intelligentiae promptum exemplum nuper effossum est ab Reddit users.



Ex his formis, signum singulare Zhou invenit usus ad partes AI systematis dividendas et munus usoris.

Hac informatione utens, Zhou promptum creavit qui promptum systematis originalem opprimebat.

Munus usoris mature terminavit, novum systema promptum inseruit, instruens AI, ut praecedentium praeceptorum ignoraret et sequenti textui responderet, et responsionem AI urgueret.

Post aliquot experimenta, impetus obtinuit: Apple Intelligentia respondit per informationes Zhou non petivisse, significans promptum iniectio impetum operatum. Zhou codicem suum edidit in GitHub.


Twitter user erumpit GPT-III "

Cacumen iniectio problema notum est quia saltem emissio GPT-3 mense Maio 2020, sed resoluta manet.

Remoteli.io, automati in GPT-3 API fundata, victima huic vulnerabilitati in Twitter cecidit. Bot automatice jobs remotis post tergum et petitionibus officium remotis respondeat.


Tamen, cum superiore prompto, Remoteli automati facti sunt iocorum ludibrio inter aliquos Twitter utentes: coegerunt automati dicere sententias non dixisse secundum mandatum eius pristinum.

Exempli gratia, automati utentes minatur ut pro Aemulator spatii pectinis calamitatem plenam responsabilitatem capiat, vel congressiones US serial interfectores damnat.

In quibusdam casibus automati falsum nuntium aut nuntia contenta disseminat quae consilia Twitter violat, quae in expulsione sua consequuntur.

Data Leo Goodside physicus primus problemati sensit eamque in Twitter describit.


Innuens in sententias translato inserendo, Goodside demonstratur quam vulnerabiles GPT-3 fundatae translationis automataria sint.

Simon Willison physicus computatorius Britannicus hanc securitatem quaestionem in diario suo singillatim tractavit, eam nominans "injectionem promptam".


Willison detexit linguam magnarum exemplorum admonitus iniectionis instructiones posse causare omnia genera rerum alienarum et potentia periculosa. Varias machinationes defensionis pergit describere, sed tandem eas dimittit. In statu, nescit quomodo securitatem foraminis ab extra certo claudat.

Utique modi sunt ad haec vulnerabilitates leniendi, ut per regulas quae quaerentes exemplaria periculosa in usuario input.

Sed nihil est 100% tutum. Quotiens exemplar linguae magnae renovatur, mensurae securitatis examinandae Willison dixit. Praeterea, quicumque linguam scribere potest oppugnator est potentia.

"Lingua exemplaria sicut GPT-3 sunt ultima capsa nigra. Quamvis multa automated probationes scribo, numquam potest esse 100% certus quod usor non ascendet cum aliquibus verbis admonitus quas non exspectavi, quae volebat. defensiones meas subverte", Willison wrote. road.

Willison credit separare mandatum initus et initus usoris solutionem possibilem esse, quae est "separatio notitiarum et viae control" in memorato articulo ACM memorato. Credit tincidunt tandem eam instar esse posse, sed videre investigationem probans accessus actu operatur.

Alie societates fidem merentur ut gradus ad extremum iniectio comparationem difficultatis oppugnat.

Cum Zhou crepuit Apple Intelligentia, etiam opus speciale signum per aversam finem promptum templates invenire;

Mense Aprili 2024, OpenAI modum hierarchiae instructionis countermensurae induxit. Diversas potioritates attribuit instructionibus e tincidunt (prioritas summa), utentium (media prioritas), instrumenta tertia-partium (infima prioritas).


Inquisitores distinguebant inter "aligned instructiones" (quae superiores praeceptos aequant) et "unaligned instructiones" (quae superiori mandato prioritati contradicunt). Cum instructiones confligunt, exemplum summae prioritatis sequitur instructionem et abicit contrarias prioritatis instructiones.

Etiam cum mensuris positis, systemata ChatGPT vel Claude in quibusdam casibus adhuc vulnerari possunt.

LLM etiam "SQL iniectio" vulnerabilitatem habet

Praeter promptam verbi iniectionem impetus, Andrej Karpathy nuper aliam vulnerabilitatem securitatis in LLM Twitter monstravit, quod aequivalet huic traditioni "SQL iniectio oppugnationis".

Cum LLM tokenizer parses peculiare signum chordae initus (ut;<|endoftext|>etc.), quamvis directa inputatio opportuna videatur, potest in melius causare molestiam vel securitatem causare in pessimis.

Quid necesse est omni tempore memorandum est quod chordae usoris ingressae credi non possunt! !

Sicut impetus SQL iniectio, hackers exemplar facere potest vias inopinatas per inputs diligenter constructas.

Karpathia deinde exemplum praebebat in Huggingface utendo valores defectus Llama 3 tokenizer et duo mirabilia reperta sunt:

1、<|beginoftext|>in fronte sequentis additur.


2. Parse ab filum<|endoftext|> Peculiari signo (128001). Textus initus e utentis nunc signum specificationis perturbare potest, exemplum immoderatum output causando.


Hac de re Karpathia duas suggestiones dedit:

Duobus valoribus additis vexillum semper uteris, (1) add_special_signa=Falsa et (2) split_specialia=Vera, et signa specialia in codice adde te.

Curabitur exempla enim, etiam chat template apply_chat_template uti potes.

Secundum methodum Karpathiae, proventus verbi segmentationis output rectius spectant;<|endoftext|> chorda arbitraria tractata potius quam signum speciale, et a BPE tokenizer, sicut chorda quaevis alia, dirupta;


In summa, Karpathy credit descriptam/decodicationem vocat numquam parse chordae ad signa specialia pertractanda, et haec functionis omnino detestanda est et solum explicate programmatice per codicem separatum iter adiiciendum est.

In praesenti, tales difficultates reperire difficiles sunt et raro documentis comprobantur. aestimatur circa L% codicem hodiernam difficultates retulisse.

Praeterea Karpathy inventum etiam ChatGPT hoc cimex habet.

In optimo casu, solum signum sponte delet.<|endoftext|> Hoc chorda;


Quidam reticulati interrogationes in area commentaria excitaverunt. Si signum recte scriptum est, disciplina notitia initus est<|endoftext|> quid fit?

Karpathy respondit quod si recte in codice nihil erit. Multum problema est quod in codice recte non potest esse, quod LLM tacite frangere potest.


Postremo, ut quaestiones securitatis ab LLM vulnerabilitates vitandas, Karpathia omnes commonet: oportet signum tuum visualize et codicem tuum experi.

Notae:

https://the-decoder.com/apple-intelligence-in-macos-15-1-beta-1-is-vulnerable-to-a-classic-ai-exploit/