Noli exspectare fontem apertum OpenAI GPT-4o, exspecta fontem versionis aperta VITA

Noli exspectare fontem apertum OpenAI GPT-4o, exspecta fontem versionis apertam VITA

2024-08-14

Apparatus Cordis Report

Machina Cordis Editorial Department

Iterum in aperto fonte campus est bonus nuntius.

Magnae linguae exempla (LLMs) significant evolutionem subierunt, et nuper etiam testati sumus boom in exemplaribus magnis linguae multimodalibus (MLLMs), quae mirabiles capacitates multimodas exhibent.

Praesertim cessum GPT-4o signanter progressum agri MLLM promovit. Attamen exempla aperta fonti his exemplaribus respondentia significanter insufficiens sunt. Necessitas urget fontem communitatis apertam ut ulterius campus progredi non possit.

In hoc articulo investigatores ex Tencent Youtu Lab et aliis institutis VITAM proponunt, quod est primum fons aperta multi-modalis magnae linguae exemplar (MLLM), quod potest processus et analyses video, imaginem, textum et modalitates audio simul eodem tempore experientiam interactivam multi- modalem habet provectam.

Investigatores in fundamento linguae Mixtralis 8×7B usi sunt, tum vocabularium Sinensium et instructiones bilinguas pulchre amplificaverunt. Investigatores praeterea linguam exemplar ingeniorum et audio facultatibus praediverunt per duo-scaenas multi- laboris discendi multi- modalis noctis et instructionis bene tuning.

VITA validam multi-linguam, visivam et audiendi facultatem intellectus demonstrat, ut patet per eius praestantem observantiam in scamnis simplicibus modalibus et multimodis-modalibus.

Praeter praecipuas facultates, haec investigatio magnum etiam incrementum fecit in experientia commercii humano multi-modali naturali emendando. Ut nostrae cognitionis optimae, hoc primum studium ad commercia non-excitandas et interventus audiendi in MLLM faciendi. Inquisitores etiam signa adiuncta status constituerunt ac correspondentes notitias et consilia ad varias missionum commercium perspiciendas.

VITA duplici usu explicatur, uno exemplari responsabilis responsalis quaestionis usoris generandi, alterum exemplar semper in input environmental sequi. Hoc infigo hominum commercio capabilities computatrum-Vita dat.

VITA primus gressus est ad fontem apertum communitatis ad explorandum inconsutilem integrationem multimodalis intellectus et commercii. Dum adhuc multum opus est in VITA agendum ut propius ad suum fontem claudendum versos accedat, studium sperat VITAE munus auctorem esse in angularem investigationis subsequentis.

Charta inscriptio: https://arxiv.org/pdf/2408.05211
Paper homepage: https://vita-home.github.io/
Paper title: VITA: Versus Interactive Omni Multimodal LLM-Source

https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930230&idx=4&sn=9438b7c9c53ffa71dc7b3aa78ffaf348&chksm=84e43848b393b15ede2b21d655724cddede2b21d694c9c5f. dbe49dee&token=2010422951⟨=zh_CN#rd

In superius video, utentes possunt habere communicationem liberam cum VITA verum tempus et coniecturas facere, tum accurate responsa dare; cum aliis loqueris, VITA non interrumpat, quia scit usorem cum eo communicare non esse; de VITA output, colloquium quoque Interrumpere in tempore reali et alium topicum incipere.

https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930230&idx=4&sn=9438b7c9c53ffa71dc7b3aa78ffaf348&chksm=84e43848b393b15ede2b21d655724cddede2b21d694c9c5f. dbe49dee&token=2010422951⟨=zh_CN#rd

In hoc video, usor biscoctum tenet et VITA quid edit rogat. VITA ei narrat se buccellas comedere et suggerit ut buccellas lacte vel tea melius gustent.

Cum opus sicco, fac ut particeps tua chat;

https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930230&idx=4&sn=9438b7c9c53ffa71dc7b3aa78ffaf348&chksm=84e43848b393b15ede2b21d655724cddede2b21d694c9c5f. dbe49dee&token=2010422951⟨=zh_CN#rd

Nota: Praemissae visiones in 1x celeritate reali tempore ludunt nec acceleratae sunt.

Fundatur in fluitchart usore provisum, VITA codicem scribere potest:

Picturam praebere, et VITA etiam interrogationes respondere potest ex contento picturae:

Etiam videre potes et interrogationes respondere. Cum utentes quaestionem "Describe motus canum in specie", VITA accurate responsa dare potest:

Methodus introductionis

Ut in Figura III, altiore vitae institutio processus tres gradus comprehendit: LLM disciplinam bene hians, multi- modalis alignment et multimodis instructio bene hians.

LLM disciplinam bene-tuning

Mixtralis 8x7B effectus est in summo fonte aperto LLMs, ita ut fundamentum huius studii adhibitum est. Tamen investigatores animadverterunt exemplar officiale Mixtrale limitatam facultatem capiendi Sinenses habere. Ut facultates intellegendi bilingues (Chinese et Anglice) injicerent, studium vocabularium Sinensis ad exemplar basin divulgavit, vocabularium augens ab 32000 ad 51,747. Postquam vocabularium amplificatum est, investigatores corpus bilinguis syntheticum 5 decies centena millia ad modulum moduli textum campum adhibebant.

Multimodal alignment

Ad pontem repraesentativum medium inter textum et alios modales, fundamentum multimodis intellectus ponens. Connexiones visuales tantum exercentur in tempore noctis visualis. Tabula 1 summat informationem institutionis adhibitam, excepta parte textus plani.

visual modus

Prima est visivae encoder. Inquisitores InternViT-300M-448px usi sunt ut encoder visuales, qui imaginem sumpsit cum resolutione 448×448 ut initus et generati 256 signis, postquam connector visualis utens simplex duos ordines MLP. Ut summus resolutio imaginis inputatur, investigatores dynamica consilia insita ut localia capienda utuntur.

Video singularem usum casuum imaginum esse existimatum. Si longitudo visibilis est brevior quam 4 secundis, 4 tabulae secundae per alterum gustentur uniformiter. Si longitudo video inter 4 secundis et 16 secundis, unum corpus omne alterum gustatum est. Pro videos longiores quam 16 secundae, 16 tabulae uniformiter gustatae sunt.

Alter visus est Gratia diei et noctis. Nos connectorem visualem tantum in tempore noctis visualis exercuimus et in hac periodo quaestiones audio non utebamur.

Cascading denique est notitia. Ad textum planum data et notitia imaginis, haec investigatio finem contextus longitudinis ad signa 6K concatenare studet, ut in Figura IV ostensum est. Notatu dignum est notitias video non concatenatas.

Casca disparata notitia duo beneficia habet;

Longiores contextus longitudinum sustinet, sino ab una imagine quaestionis interactiones scandere ad multarum imaginum inquisitionum interactiones, in formis initus flexibilibus provenientes, et in longitudinibus contextus extensis.
Efficaciam computationalem meliorem facit cum tabulae video magnum numerum signa visualium continere solere. Concatenando paria imaginum interrogationem, hoc studium aequabile numerum signa in batch disciplinae conservare potest, ut efficientiam computationis augeat.

Praeterea studium invenit exempla docta utentes cascades notitias comparare ad exempla erudita utentes notitia rudis.

audio modum

Ex una parte est sonus encoder. Initus audio initio discursum per scandalum Mel filter, qui signum auditionis in vincula frequentiae in singulas catervas in concursu sonitus corrumpit, imitans non-linearem soni perceptionem humanam. Postmodum inquisitores in strato 4×CNn downsampling et 24-circuitum transformator, cum summa CCCXX milium parametris, ad initus lineamenta processuras usi sunt. Etiam simplici MLP utantur instrumenti modalis instrumenti instrumenti instrumentorum communicationis socialis. Postremo, omnis 2 secundae auditionis initus in 25 signa encoded.

Alia ratio est alignment audio. Ad alignment negotium, investigatores ad recognitionem automatice sermonis adhibendam (ASR). Data includunt Wenetspeech (cum plus quam 10,000 horae multi- ditionis notitiae sermonis, maxime in operibus Sinensium notati) et Gigaspeech (cum 10,000 horarum summus qualitas auditionis datae, quarum pleraeque ad cognitionem sermonis Anglici opera diriguntur). Ad subtilem negotium auditionis, investigatores usi sunt AudioSet SL subset Wavcaps, quod 400k audio clips cum subtitles soni respondet. Per processum alignment, tam encoders audio quam connexiones exercentur.

Multimodalis institutio subtilis-tuning

Studium exemplar adaptavit augendi facultatem ad instructiones vel textus vel audiendi sui sequendi facultatem.

Data constructione. Datae fontes ad instructionem hitur periodi iidem sunt ac illi ad alignment periodum in Tabula 1, sed hoc studium sequentis emendationes fecit;

Passim interrogationes (circiter dimidiae) restitutae sunt cum versionibus auditionibus (utendo TTS technologia, ut GPT-SoVITS6), intendentes augere comprehensionem exemplarium inquisitionum audio et facultatem ad instructiones sequendas.

Diversa ratio suggerit ut certamina inter varias notitias vitandas, ut in Tabula II ostensum est. Exempli gratia, nonnullae interrogationes responderi possunt ex informationibus visualium vel ex propria scientia exemplarium ducentibus ad pugnas. Accedit, imago data perantiqua est, similis notitiae video multi- artus, quae exemplar confundere potest. Systema prompte expresse distinguit inter varias notitias rationes, quae magis intuitive comprehendere iuvat.

Ut duas functiones interactivas cognoscas, commercium et interruptionem auditionis, commercium non expergisci, hoc studium duplex instruere compagem proponit, hoc est, duo VITA exempla simul explicantur, sicut in Figura I ostenditur.

Typice, exemplar generationis quaestionibus usoris respondet. Eodem tempore, exemplar vigilantia sonos environmental detegit in processu generationis. Voces usoris non-quaestionis ignorat, sed progressum generandi exemplar cum interrogatione audio cognoscitur. Exemplar monitorium tunc historicam contextum integrat et ad recentissimas usoris interrogationes respondet, et identitates generantium et vigilantia exempla sunt switched.

Aestimatio experimentalis

lingua perficientur. Ad comprobandum efficaciam linguae exemplar processus disciplinae, investigatores quattuor notitiarum copiarum usi sunt, scilicet C-EVAL, AGIEVAL, MMLU et GSM8K. Hae schedulae varietates missionum comprehendunt, inclusas quaestiones generales multiplex electio, quaestiones multi- disciplinares, ac rationes mathematicas et logicas functiones, contextibus tam Sinensium quam Anglicis obtegentes.

Proventus in Tabula 3 infra ostendunt disciplinam in hoc articulo signanter augere facultatem linguae exemplar in Sinensium aestimatione (C-EVAL et AGIEVAL), servato primo gradu perficiendi in Anglico-relato Probatio (MMLU) et De mathematicis rationibus emendandis.

audio perficientur. Ad comprobandum robur repraesentationis sermonis docti ab exemplari, investigatores probati sunt in duas notitias prolatas: Wenetspeech et Librispeech.

Inter eos, Wenetspeech duo indicia aestimationis habet, scilicet test_net et test_ testimonii. Pro-elata notitia exemplaris, Librispeech aestimat generalem facultatem exemplaris in invisibilibus notitiis. Quattuor habet aestimationem ponit. est test paro.

Ut ex eventibus in Tabula 4 infra videri potest, VITA optimum eventum consecutus est in probatione ASR Probatio.

Multimodal perficientur. Facultates multi modales aestimandi, studium VITAE in quattuor scamnis aestimandis, in iis MME, OCRBench, HallusionBench, et Video-MME. Eventus in Figura 5 monstrantur.

Vita secundum intellectum imaginis melior est quam fons apertae imaginis specialium exemplar LLaVA-Next, et prope fontem clausae exemplaris Gemini 1.5 Pro.

VITA intellegentiae in terminis video-CCAM superat, fons apertum video exemplar. Quamquam inter VITAm et LLaVA-Next-Video-specialis intervallum intercedit, hoc gratum est, quod VITA latius modalitates sustinet ac interactivitates prioratizat.

Denique animadvertendum est magnum adhuc intervallum esse in videndi capacitatibus intelligendi inter aperta principia exempla et exempla proprietatis.

nuntium

Noli exspectare fontem apertum OpenAI GPT-4o, exspecta fontem versionis apertam VITA

Introductio

Meus contactus notitia