nuntium

Relinquentes encoder visuales, haec "versio nationalis" multi modalis magnum exemplar comparabile est etiam cum methodis ametibus

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



AIxiv columna columna est ubi Machina Cordis contenta academica et technica publicat. Praeteritis his annis, Cor Machinae AIxiv columnam plus quam 2.000 reportavit, tecta laboratatoria a maioribus universitatibus et societatibus circum orbem terrarum, efficaciter promovens permutationes academicas et disseminationem. Si egregium opus habes quod communicare vis, libenter senties nos ad nuntiandum conferendi vel contactum. Submissio inscriptio: [email protected];

Diao Haiwen est discipulus doctoralis in Universitate technologia in Dalian, et magister eius professor Lu Huchuan est. In praesenti operando ut internam ad Beijing Zhiyuan Intelligentiam Artificialis Research Instituti, duce Dr Wang Xinlong. Investigationes eius utilitates sunt visionis et linguae, efficientis translationis magnarum exemplorum, multi- modalium magnarum exempla, etc. Co-auctor Cui Yufeng a Beihang University lectus et algorithmus indagator est ad Visionem Centrum Beijing Zhiyuan Artificialis Investigationis Instituti. Investigationis eius utilitas multimodalia exempla sunt, generativa exempla et visio computatoria, et eius principale opus includit seriem Emu.

Nuper, investigationis in magnis exemplaribus multi-modalibus in plena adductius fuit, et industria in hoc magis ac magis collocavit. Exempla calida divulgata sunt, ut GPT-4o (OpenAI), Gemini (Google), Phi-3V (Microsoft), Claude-3V (Anthropica), et Grok-1.5V (xAI), etc. Eodem tempore domestica GLM-4V (Sapientia AI), Exempla 1.5V (Step Star), Emu2 (Beijing Zhiyuan), Intern-VL (Shanghai AI Laboratorium), Exempla Qwen-VL (Alibaba), etc. in flore pleno.

Hodiernae linguae visualium exemplar (VLM) plerumque innititur visivae encoder (visionis Encoder, VE) ut lineamenta visualia extrahat, et deinde instructiones usoris cum magna lingua exemplar (LLM) coniungit ad dispensandum et respondendo visual encoder et magnae linguae exemplar disciplinae separatio. Haec separatio encoders visualis causat ut inductionis visivae proventus inducantur, cum inter exempla magnarum linguarum intermixti sunt, ut imaginis solutionis ratio et aspectus limitata, et priores visuales semantici validi. Cum facultas encoders visualis augere pergit, instruere efficaciam multi- modalis exemplorum in magnis significationibus visualium dispensando multum etiam circumscribitur. Praeterea quomodo invenire facultatem optimalem conformationem visivae encoders et magnarum linguae exemplorum in dies implicata et provocatio facta est.

In hoc rerum prospectu nonnullae notiones magis incisurae celeriter emerserunt;

  • Num removemus encoder visuales, id est, directe aedificare magnum exemplar nativi-modi sine encoder visual?
  • Quomodo efficaciter et leniter evolvit exemplar linguae magnae in magna multi-modali indigena exemplar sine encoders visuali?
  • Quomodo ad pontem faciendum intervallum inter encoder-minus indigenas compages multimodas et paradigmata multimodalia encoder-fundatur?

Peritus AI emisit seriem Fuyu exemplorum in fine 2023 et aliquot conatus cognatos fecit, sed nullas disciplinas, notitias facultates et informationes armorum patefecit. Eodem tempore notabilis effectus est interstitio inter exemplar Fuyu et algorithms amet in publicis indicibus aestimationis textus visualis. Per idem tempus, experimenta quaedam gubernatoris quam perduximus, monstravit quod, etsi scala praeeminentiae notitiarum in magna magnitudine aucta est, indigena multi- modalis magnum exemplar sine encoder tamen difficultates spinosas facies ut tardae concursus velocitatis et effectus pauperis.

Propter has provocationes, visio manipulus Zhiyuan Instituti Research Institutum cum universitatibus domesticis, ut Dalian University technologiae et Universitatis Pekingiae, ad novam generationem exemplar linguae visivae liberae EV. Per rationes exquisitas disciplinas et adiectis vigilantiae visivae, EV integra repraesentationem visivam-linguisticam, alignment et consequentiam in architecturae puro decoder unificato. Utens publice in promptu notitias, Eva bene facit in pluribus scamnis visuali-linguisticis, cum encoder-fundatur multimodis modi facultatis similis et signanter cum commilitonibus Fuyu-8B certando. EVE proponitur via perspicua et efficax ad explicandum architecturae multi- modalis indigenarum purorum decoderorum.





  • Charta inscriptio: https://arxiv.org/abs/2406.11832
  • Project signum: https://github.com/baaivision/EVE
  • Exemplar inscriptio: https://huggingface.co/BAAI/EVE-7B-HD-v1.0

1. Technical volutpat

  • Exemplar linguae visualis vulgaris: fixum paradigma rumpit exemplorum multi- modalium amet, encoder visualem removet, et rationem quamlibet imaginis attingere potest. Insigniter melius quam idem genus exemplar Fuyu-8B in multiplicibus vocabulis visualibus in benchmarks est et prope cum architectura linguae visualis encoder-substructio visualis amet.
  • Minimum notitia et formatio gratuita: Praeparatio Evae exemplar solum publicas notitias ab OpenImages, SAM et LAION obtexit, et 665,000 LLaVA notitias instruit, et addito 1.2 decies centena milia colloquii visualis, ad condendas versiones regulares et altas respective versio EV-7B. Disciplina circa 9 dies sumit ut duabus nodis 8-A100 (40G) complendis, vel 5 diebus quattuor nodis 8-A100.
  • Perspicuus et efficax exploratio: Eva explorare conatur efficacem, perspicuum et practicum iter ad exemplar linguae visualis, novae notiones et experientiam pretiosam praebens ad novam generationem puram decoder visivae linguae exemplar architecturae multi- modalis futurae evolutionis. exemplorum novas directiones ad explorandum aperit.

2. Model structure



Primum, per Vicuna-7B linguarum exemplar initialized est, ut habeat di- ciplinam linguae scientiam et disciplinam potentem sequentes facultates. Ex hoc fundamento, encoder visuales profunde sublato, leve pondus tabulae visualis descriptae construitur, imago initus est efficienter et detrimento encoded, et initus in decoder unificato cum usore linguae praeceptis. Praeterea alignment visualis iacuit alignment plumam cum generali visuali encoder ut augeret informationes visuales subtiliter descriptas et repraesentationes.



2.1 Patch Embedding Stratum

  • Primo utere uno strato convolutionis ad obtinendum 2D mappam imaginis, et deinde per stratum medium deducendi deprimendi;
  • Opera moduli crucis utere (CA1) ut se occurrunt in agro limitato receptivo ad augendae loci lineamenta cuiusque panni;
  • Utere <CLS> tessera et compone cum modulo crucis attentis (CA2) ad praebendas global notitias pro sulum subsequentis panni pluma;
  • Discibile <SPL> signum inseritur in fine lineae uniuscuiusque commissurae ad auxilium retis intelligendum structuram duarum dimensivarum spatialem imaginis.

2.2 Patch Conlinis Layer

  • 2D notare figuram panni validi;
  • signa et tabulatum adaptivum adaptivam ad figuram duarum dimensivam restituendam;
  • Per crucis attentiam moduli hierarchici (CA3), multi-circuli retis visualium lineamenta integrantur ad alignmentam minutam cum encoder visualem output.

3. Disciplina belli



  • Scaena prae-praedativa quam exemplorum linguarum amplissima ducitur: nexum initialem inter visionem et linguam instituit, fundamentum sequens stabili et efficax magnarum formarum prae- parat;
  • Generativus scaena prae-exercitatio: adhuc amplio exemplaris facultatem ad intellegendum contentum visuali-linguticum ac lenis transitus e puro sermone ad exemplar multiformi ad exemplar consequendum lenis;
  • Scaena subtiliter praevisa: ulteriores normae facultatem exemplaris ad instructiones linguae sequendae et ad discendum dialogum formas ad requisita variarum linguae visualium benchmarks.



  • In scaena praestructa, XXXIII decies centena data publica ab SA-1B, OpenImages et LAION muniebant, et sola exempla imaginum cum resolutione altioris quam 448×448 retenta sunt. Praesertim, ut quaestionem altae redundantiae in imaginibus LAION alloquatur, 50.000 botri generatae sunt, applicando K significat ligaturas in lineamentis imaginis ab EVA-CLIP extractis, et 300 imagines proximis singulis centri botri delectae sunt electus XV decies centena LAION exempla imaginis. Postmodum regenerantur descriptiones imaginum qualitates utentes Emu2 (17B) et LLaVA-1.5 (13B).
  • In scaena subtiliter praevisa, data copia LLaVA-misce-665K subtiliter inposita adhibetur, ut vexillum versionis EVE-7B instituat, et notitia mixta mixta ponit ut AI2D, Synthdog, DVQA, ChartQA, DocVQA, Visio-Flan. and Bunny-695K integrantur instituendi High resolution versionem EVE-7B.

4. Analysis quantitatis



EXEMPLUM EV significanter simile Fuyu-8B exemplum in multiplicibus linguae visualis probationibus explicat, ac par facit cum variis exemplaribus linguae visualis encoder-fundatur, varias formas amet. Attamen, propter usum linguae visualis ad erudiendum datam magnam vim, provocationes sunt accurate respondendo praeceptis specificis, eiusque effectus in nonnullis probationibus probatio emendari debet. Quod excitando est quod per consilia efficientis disciplinae, encoder-minus EV, comparabilem efficere potest ad exemplar linguae visualis encoder-basi, fundamentaliter solvendo problemata de input magnitudine flexibilitate, instruere efficientiam et modalitatem exemplorum amabilium.



Comparatus cum exemplaribus cum encoders, quae problemata obnoxia sunt ut simpliciorem structuram linguae ac divitiarum cognitionis iacturam, EVE meliorem et stabilitatem in perficiendi ratione ostendit sicut amplitudo data augetur, paulatim accedens ad gradum encoder-nititatis exempla. Hoc potest esse quod modalitates visuales et linguas in retis unitis descriptam et aligning magis difficilis est, faciens exempla encoder-liberi minus proclives ad exempla comparativa cum encoders aptando.

5. Quid pares tuos censes?

Ali Hatamizadeh, in NVIDIA senior indagator, dixit Eva refrigerium et conatum esse novam narrationem proponere, quae differt a constructione complexorum aestimationis signa et progressus linguae visualis emendationes.



Armand Joulin, inquisitor principalis apud Google Deepmind, dixit se excitantem ad exemplar linguae visualis decoder purum aedificare.



Apple machina discendi architecturae architecturae princeps Canuma dixit EVE architectura valde interesting et bona addita esse ad consilium MLX VLM statuto.



6.Future Outlook

Sicut exemplar linguae visualis encoder-minus indigena, EV iam nunc eventus hortatur. Secundum hanc viam, sunt quaedam directiones iucundae quae in futurum explorantur;

  • Amplius emendatio perficiendi: Experimenta inventa sunt quae prae-tramenta utentes tantum notitiae visualis-linguisticae signanter facultatem linguae exemplar redegerunt (SQA score decidit ab 65,3% ad 63.0%), sed paulatim emendavit exemplar multi-modalis effectus. Hoc indicat internam calamitatem linguae oblivionem inesse cognitionis linguae cum magna exemplaria renovata sunt. Commendatur ut apte integrare puram linguam notitias prae-tramentandas vel peritiorum mixturam (MOE) consilii ad minuendam impedimentum inter modales visuales et linguam.
  • Visio encoder-minus architecturae: Cum opportuna consilia et disciplina cum notitiis praecipuis, exempla linguae visualis minus encoder exempla cum encoders aequare possunt. Ita sub eodem exemplo facultas et magna disciplina data, quid opus est duobus? Existimamus nos amplificando exemplaris capacitatis et disciplinae notitiarum quantitatem, architecturae minus encoderae attingere vel etiam superare posse architecturae encoder-fundatae, quia illa imagines inites paene detrimento sunt et a priori studio encoder visualis vitat.
  • Constructio indigenarum multi- modalium exemplorum: Eva perfecte demonstrat formas multi- modales efficaces et stabiliter construere, quae viam perspicuam et posse aperit ad plures modales (ut audio, video, scelerisque imaginatio, profunditas, etc.). in futurum. Core idea est his modalibus praecellere per exemplum linguae magnae congelatae antequam magnam scalam unificatam inducat educativam, et utatur correspondentibus modalibus encoders et conceptus linguae alignment pro vigilantia.