nuntium

Magister Karpathy: "SQL injectionem" aggressus in magnis exemplaribus dedi, et omnino non facile

2024-08-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Apparatus Cordis Report

Editor: Du Wei, Zenan

Salus magnarum exemplorum dici potest "multum loci ad emendationem".

AI guru Andrej Karpathy hic est ad popularem scientiam cognitionis iterum.Specialibus signis utendo praestare SQL iniectio, sicut impetus in LLM」。

Sic dicta SQL iniectio oppugnationis est retis oppugnatio technicae artis. Percussor dolum datorum tergum datorum in exsequendis dictis malignis SQL inserendo eas in applicationes in agros initus. Hoc genus oppugnationis plerumque utitur applicatione impropria tractatio usoris input, ut non recte eliquare vel evadendi input, permittens oppugnatorem accedere, mutare, vel etiam notitias delere in datorum datorum.



Ob conscientiam securitatis augentis hominum, SQL iniectio in plurimis productis programmatis nunc fieri non debet.

Sed in magnis exemplaribus, omnia adhuc infantia sunt. LLM tokenizer in chordis input chordis responsabilis est ad parsing specialia (ut <|endoftext|>, etc.) in chorda. Dum hoc opportunum videri potest, potest ad optima et LLM vulnerabilitas securitatis inflictiones ducere, aequivalens cum impetu SQL iniectio, ad pessimum.

Gravis est hic notare: usororum input chordarum notitia suspecta sunt.

In SQL iniectio, uti potes "RORO TABLE" impetum ad malum codicem frangendum. Idem problema in LLM occurret. Malum codicem peculiare descriptor chordae in signum actuale speciale dividet, inputationem repraesentationis confundens, causando LLM ut paginas chat distribuere non possit.

Subter exemplum est usura Llama 3 tokenizer defaltam hodiernam huggingfacei.

Ut videre potes, duae condiciones non intuitivae simul fiunt;

  • Vestigium est (128000) additum in fronte sequentiae
  • <|end_of_text|> signum (128001) parsi e chorda et signum speciale inseritur. Nunc textus (fortasse ex usore) confundi potest cum signo protocollo et causa LLM distribuendi, inde in indefinito output.

Karpathia igitur suadet semper duobus extra vexillis utendo ad operationes signandas, inactivare notas singulares=Falsas et signa singularum = Verum, et signa specialia in codice addendo te. Putabat nominatio duarum optionum aliquantulum perturbationis fore. Ad exemplum chat, uti potes etiam utere chat template apply_chat_template.

Agendo potes aliquid rectius videre. Exempli gratia <end_of_text|> nunc tractatur ut alia quaevis series chordarum et dirupta subjecta BPE tokenizer sicut quaevis alia chorda.



Karpathia credit quod vocat ad modum translitterandi et decoctionis numquam parse chordae ad signa specialia tractanda et nos omnino deprecandam hanc functionem necesse est. Sed haec tantum explicite et programmatice addi debent per codicem separatum iter. In tiktoken, semper uti encode_ordinario, in amplexu tutius est uti vexillo supra memorato. Scias saltem hanc quaestionem et semper tua signa visibilia custodi et codicem tuum proba.

Karpathy credit haec subtilissima et parum documenta esse, et aestimat circa L% e codice nunc cimices ex quaestionibus praedictis causari.

Etiam ChatGPT, quae tentationem duram passus est antequam officinas relinquat, nonnullas difficultates mirabiles habet. Optime solum signum delet, at pessime LLM modo indefinito confundit. Karpathia nesciebat quid post scaenas ageretur, sed ChatGPT filum saepe < < < < < Extra operam igitur hic attende.



Cum primum articulum Andrej Karpathy processit, statim disceptationem excitavit. Quidam quaesivit: Quid ergo opus est ad mensuras LLM tincidunt ad securitatem emendandam?

Karpathy putat faciles dicere, modo chordas semper notare in via "normali", id est, utf8 byte sequentia. Hoc simile est principii "minimi privilegii" in securitate — essentialiter, limitando functionem ad id quod est absolute necessarium, magna casuum ignoratorum consectariorum.



Dixerunt etiam quidam, "Iam nos in hanc partem movemus." Lucas Beyer, auctor VLM exemplar PaliGemma et Google DeepMind physicus, dixit nos securitatem mechanismum in novo codice operis emendasse, quod paulum molestum erit, praesertim cum multiplex signa sustineat, sed altiore operae pretium est. Etiam codicem simpliciorem facit.



Quidam reticulati etiam interrogaverunt, quid fit si recte codex, sed <

Karpathy dixit quod si recte in codice nihil erit. Sed quaestio non est multum recte esse codicem, qui potest quiete destruere mundi conspectum amplissimum exemplar.



Quid censes novas difficultates a Karpathia repertas?

Relatio contentus:

https://twitter.com/karpathy/status/1823418177197646104