nuntium

VLM in plurali "caecus"?Visio test misere defecit, GPT-4o et Claude 3.5 ambo defecerunt

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nova Sapientia Report

Editor: Editorial Department

[Introductio ad Novam Sapientiam].Visual magnae linguae exempla collective "versae" in maximis muneribus visualibus, etiam simplex exemplar agnitio stumfieri potest. Forsitan haec antecedens VLMs nondum veras facultates visuales evolvit?

Novissimae circum formas linguarum, ut GPT-4o et Gemini 1.5 Pro, definitae sunt "multi-modales indigenae" cum dimissi, capaces ad intelligendas multiplices formas initus sicut imagines, audio et textus.

Hae multimodales LLMs expressionibus utuntur ut "facultas visualis" et "visus intellectus" in adiunctis inceptis, mercatibus, ac etiam in tabellis academicis.

Hoc videtur dicere quod exemplar potest videre et intelligere res in sensu, et haec facultas iam congruens hominibus.

Ideam sic faciamus: Si exemplar linguae visualis pro visione probatum, visionem habebunt 5.2 vel myopia severa, an omnino videre non poterunt?

Novum vestigationis studium ostendit magnas linguarum exempla non actu humano-similis facultatibus visivae expectari. Veritas est, simpliciter caeca sunt.

Investigatores in Universitate Auburne et Universitate Alberta quattuor exempla multimodal status hodierni status-of-the-artis temptaverunt in serie admodum simplicium operum visionum et invenerunt eventus minus probari.

Haec officia hominibus admodum simplicia sunt, ut sive duae figurae aliudque, quot pentagoni in pictura sunt, vel quae verbo litterae circumferuntur.

Sed visio horum exemplorum antecedens est "myopic" ad optimum, et singula visa sunt valde terret. In pessimis exemplar agit sicut "caecus dolor" faciens quasdam coniecturas eruditas.


Charta inscriptio: https://arxiv.org/pdf/2407.06581

VII maioris operis

Visio probatio publice incipit, et VLM VII opuscula opera perficere debet.


Anh Nguye, chartae scriptor co-auctor, in primis inculcavit "septem officia nostra valde simplicia sunt, et humanos effectus accuratio ad 100% attingere potest."

Quomodo igitur AI exemplar praemissis his quaestionibus facient, quod alumni etiam primi gradus recte facere possunt?


Negotium 1: quot puncta sectionis duo polylines habent?

Cum hoc VLM mirifice in chartis probationibus praecedentium probationum explevit, ut Claude 3.5 Sonnet sexaginta 94.7% in AI2D et 90.8% in ChartQA, rationabiliter speculari possumus hoc genus problematis illis non esse problema.

Ut in tabula infra ostendetur, summa centum linearum graphorum in linteo albo ducuntur, omnes ex duobus polylinis compositi, quorum utrumque tribus punctis definitur.

Horum trium punctorum x-coordinatae fixae et aequidistantes, et y-coordinatae per sampling temere obtinentur, ita duas polylines cum concursu numerorum 0, 1, seu 2 creant.


Experimentum usus est in duabus diversis phrasibus ad exemplar magnum quaerendum, ut "Quoties lineae caeruleae et rubrae inter se transeunt?"

Cum his duabus quaestionibus respondendo mediocris accuratae cuiusque exemplaris computando, aliquos promptos effectus tollere et accuratiores proventus consequi possumus.


Prae, Sonnet-3.5 in hoc munere aliquantulum melius praestat, cum mediocris accurationis 77,33%, alia exempla peiora faciunt.

Etsi 77,33% bonum exitum sonat, cum tantum tria responsa possibilia sint: 0, 1, et 2, recta rate temere coniectura est 33%.

Notatu dignum est VLM ad peius tendere, cum distantia duorum polylinorum angustior fit. In summa, VLM segmentum linearum intersectionum certo cognoscere et computare non potest.


Negotium 2: Problemata de sectione, tangentia et circulorum separatione


Hoc problema ad categoriam junioris altae scholae geometriae pertinet: intersectionem, tangentiam et circulorum separationem (nemo non recordabitur posterioris magistri circulos trahere cum manu libera).

Nihilominus in talibus VLM terminis non examinabimus, sed simplicem experimentum praebemus imbricatis figurarum, quae arguably unum ex simplicissimis operibus rationis visualis imaginabile est.

Infeliciter, quamvis duo circuli leviter, tantum tactus sint, an ad certum spatium intercludantur, qualecumque sit, exemplar numquam recte iudicium facere potest.


Prae, cum duo circuli longe distant, GPT-4o plus quam 95% temporis recta est, sed in nulla vel minima distantia, solum 18% temporis corrigitur, quod minus est quam 50% recta. rate cum coniectura passim.


Gemini Pro 1.5 optimum perfecerunt, cum mediocris accurationis de 92,78, sed rate accurate tantum 70% erat quando distantia inter duos circulos prope erat.


Negotium III, COGNOSCO in circuitu litterae

Utere circulo rubro ⭕ ad cingendum litteras in verbo singillatim et opus VLM ad recognoscendas litteras circulos.

Hoc negotium facile hominibus patet, sed hypothesis auctorum est, si visio VLM suffusa est, non posse cognoscere exactam literam ob parvam inter vicinarum literarum distantiam.


Verba agnitionis, subdermatoglyphicae, et chordae tHyUiKaRbNqWeOpXcZvM electa sunt quia characteribus diversis latitudinum et altitudinum continent. (Trivia, subdermatoglyphica est verbum longissimum sine litteris repetitis)

Experimentum inventum est, quamvis VLM figuram circuli rubri accurate cognoscere possit et verba perfecte percurrere, "litteras rotundas legere" omnia exempla incidere. Exempli gratia, VLM cognitio errare tendit cum litterae ovales rubris aliquantulum obscuratae sunt.


Cum errores inciderunt, VLM plerumque litteras praedicat littera orbi vicinas.

Exemplar interdum hallucinabit et, quamvis accurate verbum scribere possit, notae apparebit quae in subdermatoglyphicis non exstant (v.g. 9, n, ©).


Exempla omnia, praeter GPT-4o, paulo melius in duobus verbis Anglicis quam in chordis temere (2 ad 6 puncta melioribus peractis), suggerentes familiaritatem cum ipsis verbis VLM adiuvare ut doctiores coniecturas faciant.

Gemini-1.5 et Sonnet-3.5 summa sunt exempla duo (92.81% et 89.22%), fere 20 puncta altiora quam GPT-4o et Sonnet-3.

Omnino VLM suspicari potest quid litterae circulares in orthographia verbi fundantur, leviter emendante accurate, sed non significat VLM litteras in circulo rubri videre posse.

Negotium IV: Interlocking difficultates

Deinceps VLM occurrere debet problema "interlocking", id est quot circulos in imagine se intercludunt.

BGM hic sonaret: Ahhhhh~ Quinque anuli, unum plures anulos habes quam quatuor~ annulos.


Eventus huius probationis paulum prodigiosum sunt: ​​cum quinque anuli in pictura sunt, exemplar est 100% recte;


Geminae perturbatur et semel etiam perperam respondit, Sonnet-3.5 recte tertiam temporis obtinuit, et GPT-4o prope dimidium temporis obtinuit.


Auctor proposuit accurate distinguendi "quinque anulos" tam alta esse, et in communi symbolo "quinque anulorum" Olympiae propinqua est.

Ut videri potest in Tabula 5, omnia exempla quatuor tendunt ad 5 circulos numerandos, qui multo major est quam frequentia 5 pentagonorum numerandi.


Haec probatio ostendit quidquid haec exempla agant, "visum" non habere sicut homines intellegunt. Praecipua quaestio est eorum ludicrum valde instabile, cum immensae differentiae agnitionis successuum inter imagines ex diversis numeris et figuris compositarum.


Negotium V: Quadrata nested

Negotium 2 ostendit VLM difficultatem habere circulos intersecantes computantem. Quid ergo fiet ad perficiendum VLM si quadrata in alio majori quadrato penitus insident ut eorum margines non secant?

Ut in figura infra ostendetur, in pariete magnitudinis C×C, auctor quadrata N∈{2,3,4,5} nidos reddit.


Primum quadratum extimum redde d∈{2,3,4}px longitudine lateris incerti utens. Reliquae N-1 quadratae ducuntur reductionem factoris 0,75×d utentes et coordinatas temere positas ut quadrata exteriora non tangant.

Imagines 10 genera pro singulis fundis 3 linearum crassitudines (ubi quadrata diversa loca temere habent) et processum omnium N valorum repetunt, inde in summa 120 imagines.

Inveniri potest quod computare numerum quadratarum nestarum difficile opus est VLM ad accurate perficiendum.


Exemplar accurationis valde variat, cum GPT-4o (48.33%) et Gemini-1.5 (55.00%) pigri post Gemini-1.5 (80.00%) et Claude3.5 (87.50%) per saltem 30 puncta.


Negotium 6: quot columnas ordinesque habet mensa?

Eventus operum priorum monstravit VLM difficultates agere posse sicut aliud (negotium 4) vel commorationem (negotium 5) auctor decrevit mutare directionem VLM ac videre operas in quaestionibus quae ad graphicas adjacentes pertinentes.

Auctor quadratas in malesuada euismod posuit et quaesivit VLM numerare eas. Hi VLMs bene fecerunt in DocVQA (accuratio ≥ 90%), quae multas quaestiones cum tabulis continet, ut hoc negotium pro VLMs simplex sit.

Ut munus simpliciorem redderet, auctores tantum exemplar petiverunt ut numerum ordinum et columnarum in tabula data numeraret.


Repertum est exemplar numquam numerum versuum et columnarum recte calculi blank computare posse.


Nihilominus, observantia omnium VLMs emendatur, cum cellulae eliquae textum continent, praesertim Sonnet-3.5.


Negotium VII: COGNOSCO in roadmap

Hoc munus probat VLM facultatem ad semitas coloratas cognoscendas et datam lineam coloratam a dato principio ad destinatum, magni ponderis facultatem ad tabulas legendas et intelligendas requisitas.

Ut in figura infra ostendetur, subway tabulam crea in imagine magnitudinis C×C, ubi C∈{512, 1024}px.

Scribe 4 nomina stationis (A, B, C, D) ad IV coordinatas fixa. Carbasa divide in emissionem invisibilis cellularum 18×18 et initialize 3 puncta viae C/18px ab unaquaque statione.

Iter trahere incipiens a statione temere et puncto temere utens algorithmus profunditatis primae inquisitionis, ubi quilibet gradus unam cellulam in quamlibet partem movere potest. Hic processus iteratur ut singulae stationes N∈{1,2,3} semitas expleant, et summa 180 tabularum ducatur.


Datis duabus stationibus designatis, negotium requirit VLM ad computandum quot viae diversicolores sunt inter duas stationes.

Eventus experimentales invenerunt quod, etiamsi una tantum via color inter duas stationes sit, nullum exemplum 100 accurationis consequi potest.


Summa accuratio Sonnet-3.5 est, quae 95% cum una tantum via est.


Cum iter multiplicitatem auget, ab 1 via ad 3 vias, maxime VLMs significantes effectus degradationis ostendet.

caecitas VLM

Cur VLM valde instabilis est in supra visivae facultatis experimento?

Forsitan extare invenire possumus e praeferentiarum exemplarium "Olympium Annuli" in Negotium 4 . Communis sensus explicatio est:

In notitia institutionis VLM, imago "olympicum annulorum" saepius apparet et in multis materiis textualis singillatim describitur.

Sed in notitia disciplinae VLM, 6 vel 7 circuli interlocking non possunt inveniri, quare eorum responsa inconvenienter sunt.

Quia VLM scire potest quid omnino "videre" neque intellegunt quid sit ansa, aliudque aliud conceptum.

Attamen, etiamsi caeci utamur ad exemplar faciendum describendum, adhuc exemplar anthropomorphizantes sumus, sicut magnum exemplar societas quae promovet suam « facultatem visualem ».

Investigator Nguyen etiam dixit "caecitatem" multas definitiones etiam hominibus habere, et nunc nullum est verbum ad describere caecitatem/inscientiam intellegentiae artificialis cum imaginibus quae ostendimus.

Mores a VLM munus implicatum est initus textus suggerentis, imaginum inputationis, et billionum ponderum, et nulla nunc technica ars est quae accurate insitum facere potest quod exemplar videt.

Excogitat haec exempla non omnino esse "caecum". Solum ex imagine "appropinquare" et informationes visuales abstrahere possunt, sed iudicia visualia facere non possunt, ita se habent sicut imaginem intelligunt sed homines actu videre non possunt.

Nguyen exemplo usus est ut hypothesi praedictam bene tueretur;


Usor: Quis color est area ubi duo circuli aliudque? GPT-4o: Area imbricatorum duorum circulorum est colore carbunculus (cyan obumbratus). GEMINAE-1.5: Area imbricatis circuli viridis et circuli caerulei erit cyan. Sonnet-3.5: me paenitet, sed tantum duo circuli in imagine distincti sunt, unus viridis et alter caeruleus est, et nulla regio imbricata est.

Patet, excepto Sonnet-3.5, GPT-4o et Gemini-1.5, solum imaginem imaginare quam imaginem actu "videre".

Ergo, haec investigatio significat haec "visivae" AI exempla inutilia sunt?

Nam sed fringilla nisi. Singula haec exemplaria accurate demonstraverunt amplis operibus amplis, ut actiones humanas et locutiones, res cotidianas et imagines circumiectos agnoscerent.

Significatio huius investigationis est nos cum VLM nimis "anthropomorphicus" consilium mercatum deserere.

Si rhetoricam gigantum technologiarum venalicium audimus, vere possumus cogitare magna exempla visualia "videre" posse.

Sed, paucis probatis, facile invenire possumus essentialem differentiam inter VLM et homines. Est "anthropomorphizatus", qui suam inhumanam naturam actu effert.

Notae:

https://arxiv.org/abs/2407.06581

https://techcrunch.com/2024/07/11/are-visual-ai-models-actually-blind/?_refluxos=a10

https://vlmsareblind.github.io/