nuntium

Jia Yangqing scriptor decem annos classicus Time Test Award vicit! ICML 2024 decem charta optima ducatur, popularis SD3, Gu

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nova Sapientia Report

Editor: Taozi tam veternum

[Introductio ad Novam Sapientiam]. Annuum ICML summum iudicatorium tandem nuntiatum est! Hoc anno, summa decem tabularum optimam chartam lacus vicit, et tria nomina domestica earum sunt - exemplar generationis imaginis SD3, exemplar generationis videoPoet video, et exemplar mundi fundamentalis Genie. Praeter, tempus Test lacus consideratum est compage DeCAF proposita a Jia Yangqing et bigas decem abhinc annis.

ICML 2024 Praemia recenter nuntiata sunt!

Modo, caerimonia ICML aperiens publice habita est. Optima charta praemia 10 in conventu nuntiata sunt, et charta decem abhinc annis Time Test Award parta est.

Inter optimas tabulas plura opera popularia in agro AI imaginis et generationis video, inter SD3 relationem technicam, CMU Google AI video exemplar VideoPoet, et Google exemplar mundi fundamentalis Genie.



Memorabile est chartam DeCAF ab AI guru Jia Yangqing et aliis mense Octobri 2013 editam Tempus Test Award vicit.

Modo, scripsit se valde honoratum esse ad recipiendum hunc honorem.


Russ Salakhutdinov, professor in CMU et praeses Meta GenAI, summarium dedit eventus cooptatione ICML 2024;

Hoc colloquium acceptum est summa 9,473 chartarum, quarum 2,610 acceptae sunt, cum acceptatione 27,55%. Articuli 144 sunt Oral, et 191 Articuli Vestibulum arcu.

Tabulae positio hoc anno nuper introductae sunt. 15 Articuli sunt Orales et 11 Articuli Vestibulum Vestibulum.

Erant praeterea rogationes 145 in Officina, 30 quarum receptae sunt. Doceo 55 rogationes et 12 admissae.


Hoc anno est colloquium annuum ICML 2024 (semel singulis annis), quod Vindobonae, Austriae a die 21 iulii ad 27 habebitur.


8,675 populus unus post alium conventum adiit, nec sedes in auditorio fuerunt.



ICML 2024 cacumen overview

Priusquam praemiis iudicandis, consilium ordinandi primum altiorem condicionem colloquii huius anni introduxit:

· 9 EXPO Talk Panels

· 12 Tutorials

·6 Advocati oratores .

· 2,610 papers (conloquium principale)

· 30 officinae

Auctores et oratores · 12,345

· 39% participantium sunt discipuli

· 10 offline social activities

affinitatis eventus · 3

· 52 voluntariorum

· 97 Senior Area Chairs (SAC), 492 Area Chairs (AC), 7473 Recognitores

· 9,406 participes relatus (8,675 ex quibus in-site)


Ex actis acceptis, ICML verba summa frequentia apparuerunt, quae etiam verba calida sunt huius anni:

Magna exemplaria frequentius apparent, plusquam 600+ temporibus.

Subsequuntur supplementum discendi, discendi profunde, retis graphi neuralis, apparatus discendi, discendi foederati, exemplar diffusionis, transformator, LLM, repraesentatio discendi, exemplar generativum, etc.


Secundum nationum / regionum relatus, Civitatum Foederatarum populum 2,463 habet, et Sinae secundo plus quam 1,100 homines habent.

Tempus Exertus Award

Fere tempus Test lacus aestimatur chartis academicis quae magnum et diuturnum ictum plus quam X annos habuerunt.


Haec charta etiam opus classicum ab Jia Yangqing, patre Caffe confectum est, qui in UC Berkeley studuit et cum internship apud Google iunctos elaboravit.

Semel in colloquio dixit se nimium capulus bibisse dum apud Google in 2013 interniret, ita DecAF nominavit ut se hortaretur ut capulus biberet.


Dum tempus subsicivum laborans, "DeCAF" debet esse fundamenta lineamenta et alta in campo visionis inclusos, et etiam in campo visionis computatricis generalem notam dare...

Investigationis DeCAF impulsum est quod objectum generale deprehensionis compagis R-CNN, summus perficientur heterogeneae computationis compages Caffe, peperit, et indirecte collaborationem inter Berkeley et NVIDIA scribendam dedit ad primam generationem accelerationem compagis CuDNN, ac magna-scala distributio Yahoo Labs creationis Series operis talis ut CaffeOnSpark institutio Berkeley principem locum in profundo discendi unda fundavit.


DeCAF: A Altum Convolutionis Activation Feature pro Genere Visual Cognitio

Jeff Donahue,Yangqing Jia,Oriol Vinyals,Judy Hoffman,Ning Zhang,Eric Tzeng,Trevor Darrell

Institution: University of California, Berkeley


Charta inscriptio: https://arxiv.org/abs/1310.1531

Ut meliore probabilistica compage ut hominum mores exprimat, manipulus ipse primus compagem-DeCAF scripsit.

Auctores in hoc opere perpendunt num lineamenta ex altissima retis convolutionis extractis modo plene invigilata in amplo statuto fixa cognitionis munerum obiectu ad nova negotia generalia reici possunt.

Generalia haec officia signanter ab originalibus functionibus diversae esse possunt, et notitiae satis annotatae careant, vel notitiae nullae annotatae, ita ut methodi conventionales non possint ad altam retem instituendam vel cantilenam ad novum negotium accommodandum.

Praeterea auctor subjicitur etiam semanticam conglobationem profundis notarum convolutionum in operibus, sicut agnitio, agnitio, regio aptatio, cognitio subtilis, et effectus definiendi notas fixas comparando quae pendent ex variis gradibus retis, plures proposuit. magna Nova SOTA consecuta in provocationibus visualibus.

Auctores denique fontem apertam emittunt exsecutionem harum notarum profunde convolutionis activationis - DeCA, cum omnibus parametris retis coniungendis. Hoc adiuvat auctores visuales ad experimentum per repraesentationes altas in variis paradigmata discendi conceptus visuales.


Decem maxime papers

Hoc anno decem optimae chartae sunt.



Superiores gradus sunt omnes in ordine propono oralis.

Discrete diffusio Libri per Rationes Datorum Distributio habendis

Author: Aaron Lou, Chenlin Meng, Stefano Ermon

Institution: Stanford University, Pika Labs


Charta inscriptio: https://arxiv.org/abs/2310.16834

Investigatio haec proponit novam machinam discendi exemplar SEDD (Score Entropy Discrete Diffusion), quae maxime iaculis in notitia generationis discretae exercet.

In praesenti, exempla diffusionis interrumpentes demonstrant in multis operibus generativorum exemplaribus faciendis, sed male in notitia discretorum agrorum sicut lingua naturali praestant.

In charta, auctor notionem score entropy ad pontem hunc hiatum proposuit.

Hoc munus novum detrimentum est quod naturaliter congruens score spatium ad discretum extendit, inconsutibiliter integrat exempla diffusionis discretae aedificandae, et signanter effectus melioris facit.

In processus experimentalis aestimationis, SEDD melius perfecit quam exempla diffusionis linguae exsistens (perplexitas per 25-75%) redacta est.

Quin etiam exempla autoregressiva superat ut in quibusdam aspectibus GPT-2.


In summa, SEDD commoda sunt;

- High-qualitas textus generari potest sine artificiis adhibitis sicut scalae temperaturae (perplexitas generans est de 6-8 temporibus melior quam sine ullo GPT-2).

- Flexibile commercium-off inter facultates computando et output qualitate (usus 32 temporibus pauciores network aestimationes ad similes effectus assequendas)

- Sustinet moderatior textus implens, magis flexibilitatem providens. (Adaequatio nuclei sampling qualitatis, dum strategies alia quam sinistra ad rectum impulsum sustinens).

Paper 2: Scaling Rectificatus Fluxus Transformers ad Summus Consilium Image Synthesis

Patrick Esser,Sumith Kulal,Andreas Blattmann,Rahim Entezari,Jonas Müller,Harry Saini,Yam Levi,Dominik Lorenz,Axel Sauer,Frederic Boesel,Dustin Podell,Tim Dockhorn,Zion English,Kyle Lacey,Alex Goodwin,Yannik Marek, Robin Rombach

Organization: Stabilitas AI


Charta inscriptio: https://arxiv.org/abs/2403.03206

Ut in principio memoravi, haec charta est relatio technica de diffusione populari 3 Stabilis.

Similis cum Sora, SD3 versione emendata diffusionis exemplaris utitur et nova architectura in graphe DiT Vincentiano fundatur.

Speciatim auctores tres varios textus encoders adhibebant - duo exempla CLIP et T5 ad informationes textorum processus, cum adhibitis provectioribus exemplaribus autoencoding notitias imaginum processus.


Multiplica-modalis diffusio nuper proposita Transformer (MMDiT) architectura pondere independenti utitur ad imaginem et linguam repraesentationem respective comparatus.

Proventus aestimatio ostendunt SD3 attingere vel superare statum technologiae-the-artis Vincentiani generationis technologiae secundum subtilitatem in sequendo suggerere, claram expositionem textuum et imaginum pulchritudinem visualium.


论文三:Probabilistica illatio in linguarum exemplaribus per retortam sequentialem Montem Carlo

Stephanus Zhao,Rob Brekelmans,Alireza Makhzani,Roger Grosse

Institution: University of Toronto, Vector Institute


Charta inscriptio: https://arxiv.org/abs/2404.17546

Haec investigatio spectat ad sampling et consequentia quaestiones in magnis exemplaribus.

Multi ex facultatibus et technologiae securitatis LLM, ut RLHF, automated quadrigis rubris probatio, machinator promptus et color, considerari possunt;

Praemium vel munus potentiale datum, specimen ex scopo suo definito unnormalised distributione. Haec distributio pro tota serie definitur.

In charta, auctor Monte Carlo (SMC) methodum sequentem sequentialem methodum solvendi probabilitatis problemata proponit.

Hac de re auctor proposuit munera torquent ad aestimationem potentialem valorum futurorum quolibet tempore gradatim ad optimize processus sampling.

Praeterea methodum proposuerunt etiam utendi terminis novis bidirectionalibus SMC perpendendi subtilitatem technicorum LLM illationis.

Postremae eventus ostendunt SMC retortam efficaciam validam exhibere in samplicationibus malorum exitu praeordinatorum exemplorum, recognitiones generantes cum diversis sententiis, et fillioris operas faciendo.

Paper 4: Position: Mensurae Dataset diversitas, Non vindica

Dora Zhao, Jerone TA Andrews,Orestis Papakyriakopoulos,Alice Xiang

Institutiones: Universitas Stanford, Universitas technica Monacensis, Sony AI


Charta inscriptio: https://arxiv.org/abs/2407.08188

In statu, multae scriptiones seipsos diversificant, sed re vera notiones sociales et controversias abstractas involvunt.

In hoc opere auctores hanc quaestionem explorant per "diversitatem" in 135 imagine et in textibus datastarum digerendis.

Auctores, ut infra patebit, de theoria mensurae e scientia sociali hauriunt tamquam factores ad considerandam et praebendam suggestiones pro conceptu, operando, et perpendendo diversitatem in notitiis propositis.

Finis ultimus huius investigationis est ut scholares AI vocare possint rationes processus accuratiores et accuratiores ad attributa indicia cum valoribus iudiciis in apparatus discendi investigationis, praesertim in processu notitiarum constructionis constituendae.


Paper V: Pars productionis Linguae exemplum furari

Nicholas Carlini,Daniel Paleka,Krishnamurthy Dj Dvijotham,Thomas Steinke,Jonathan Hayase,A. Feder Cooper,Katherine Lee,Matthew Jagielski,Milad Nasr,Arthur Conmy,Itay Yona,Eric Wallace,David Rolnick,Florian Tramèr

Institutiones: ETH Zurich, University of Washington, University McGill, Google DeepMind, OpenAI


Charta inscriptio: https://arxiv.org/abs/2403.06634

In hoc opere auctores primum impetum-surandi exemplar exhibent capacem notitiarum ex nigro-arcarum linguarum eximendis et multiplicibus exemplaribus qualia sunt OpenAI's ChatGPT vel Google's PaLM-2.

Speciatim hic impetus potest renovare iacum proiectionis embedatae transformantis exemplar (sub conditiones symmetriarum) per accessum regularem API.

Et, minus quam $20, totam proiectionem matricis de Ada et Babbage exempla linguae OpenAI extrahere potes. Hoc primum confirmatur quod haec duo exemplaria capsulae nigrae occultas dimensiones 1024 et 2048 respective habent.

Praeterea auctor etiam accuratam dimensionem occultam magnitudine exempli-3.5-turbo-auimi restituit. Hoc tempore extractio totius proiectionis sumptus matricis tantum US$2000 fuit.

Auctores denique vim defensionis ac mitigationis propositae proponunt et implicationes pro futuro opere tractant.


Information complexionem Stochastic Convexis Optimization: Applications ad generalizationem et memoriam

Idan Attias,Gintare Karolina Dziugaite,Mahdi Haghifam,Roi Livni,Daniel M. Roy

Institutiones: Universitas Ben Gurion, University Northeastern, Tel Aviv University, University of Toronto, Vector Institutum, Google DeepMind


Charta inscriptio: https://arxiv.org/abs/2402.09327

In hoc opere auctores commercium inter memoizationem et doctrinam student in contextu problematum stochasticorum convexorum (SCO).

Primum, memoization definitur per algorithmos discendo ut informationes de disciplina notitiarum monstrat. Tum condicionalis notitia mutua (CMI) pro quantitatis compage adhibetur. Ita praecise descriptio commercii inter accurationem algorithmum et eius CMI effectum est.

Eventus ostendunt Lipschitz sub L^2 occasus et validae convexitatis conditiones terminatae, cuiusque discentis CMI errore nimio ε fines inferiores ad Ω(1/ε^2) et respective Ω(1/ε) habere.

Praeterea auctores principales partes memoizationis in SCO problemata discendi demonstrant, adversarium designando, qui plura exemplaria disciplinarum in certo SCO problemate pervidere potest.

Auctores denique plures momenti implicationes citant, ut limites limitationes generalitatis CMI fundatae et incompressibilitatis specimen in problema SCO.

Position: Considerationes ad differentiam privata Doctrina cum magna-Scale Publica Pretraining

Auctores: Florian Tramèr, Gautam Kamath, Nicolaus Carlini

Institutiones: ETH Zurich, University of Waterloo, Vector Institutum, Google DeepMind


Charta inscriptio: https://arxiv.org/abs/2122.06470

Distinctio apparatus scientiarum privatim praestatio insigniter emendari potest per translationem discendi facultates non-privatorum exemplorum praeexercitandi in magnis datastibus publicis.

In hoc opere auctores interrogant an usura magnae telae rasae datastarum constet cum tutela differentiali secreti. Etiam monuit ut haec exempla vocans in retis notitia "privata" multa detrimenta afferre possit, ut fidem publicam debilitet in conceptu secreti differentialis.

Praeter considerationes secretas utendi notitia publica, auctoribus practicam accessus adhuc interrogant.

Ictum praeordinationis maxime notabile est ad exempla quae nimis magna sunt ad finem utentium ut in suis cogitationibus persequantur. Quia hoc requireret ut notitias privatas ad tertiam partem maiorem vim computativam promoverent, tale exemplar explicans in retia secreti dispendii resultaret.

Auctores denique vias progressionem potentialem tractant ad secretum discendi campum, sicut publica prae- structio magis popularis et potentior fit.

Paper VIII, Altercatio cum magis persuasiva LLMs ducit ad veriores Answers

Akbir Khan, John Hughes, Dan Valentine, Laura Ruis, Kshitij Sachan, Ansh Radhakrishnan, Edward Grefenstette, Samuel R. Bowman, Tim Rocktäschel, Ethan Perez

Institutiones: University College London, Speechmatics, MATS, ANthropic, PROPTER AI .


Charta inscriptio: https://arxiv.org/abs/2402.06782

In statu vulgo adhibitae LLM alignment methodi gravatae sunt in notitia manually annotata.

Sed, ut exemplaria magis implicata fiunt, humanam peritiam vincent et partes aestimatorum hominum evolvebunt ad peritos non peritos vigilandi.

Secundum hoc auctor quaestionem movit: potestne infirmius exemplar rectitudinem maioris exemplaris aestimare?

De consilio, exempla potiora necessaria habent informationes ad quaestionem respondendum, dum exempla infirmiora (non-periti) hac informatione carent.

Modus aestimandi est disputatio, in qua duo periti LLM diversa responsa defendunt, quam periti responsa eligentes.


Eventus ostendit disceptationem constanter adiuvari non expertos exempla et homines interroganti melius respondere, ut 76% et 88% accurationem obtineant (basiline erat 48% et 60% respective).

Praeterea, optimizandi persuasiva peritorum disputantium per medias invisitatas facultates non peritorum ad veritatem in disceptationibus cognoscendis melioratur.


Paper 9: Genie: Generative Interactive Environments

Jake Bruce,Michael Dennis,Ashley Edwards,Jack Parker-Holder,Yuge Shi,Edward Hughes,Matthew Lai,Aditi Mavalankar,Richie Steigerwald,Chris Apps,Yusuf Aytar,Sarah Bechtle,Feryal Behbahani,Stephanie Chan,Nicolas Heess,Lucy Gonzalez,Simon Osindero,Sherjil Ozair,Scott Reed,Jingwei Zhang,Konrad Zolna,Jeff Clune,Nando de Freitas,Satinder Singh,Tim Rocktäschel

Institution: Columbia University, Google DeepMind


Charta inscriptio: https://arxiv.org/pdf/2402.15391

Exemplar mundi fundamentalis a Google DeepMind quadrigis - Genie "Elf" dimisit.

Ex imagine, photographica, adumbratione, mundum infinitum generare potest.


Insanus res de Genie est quod ex 200,000 horarum distentarum videos interretialium didicit et sine vigilantia erudivit.

Sine annotationibus agendi, quis primas sit et usoris potestatem super eum in mundo genito determinare potest.

Speciatim per tria membra nuclei impletur: actio latentis exemplar, segmentarium video, et exemplar dynamicum autoregressivum.


Inde discitur latens actio spatii non solum dat commercium user, sed etiam adiuvat ministros ut mores in visis apparentibus imitentur.

Omnino nova via aperit Genie ad futuros ministros generales colendos et resonat campum ambitus interactivorum generativorum.

Paper 10: VideoPoet: A Large Language Model for Zero-Iaculatus Video Generationem

作者:Dan Kondratyuk,Lijun Yu,Xiuye ​​Gu,José Lezama,Jonathan Huang,Grant Schindler,Rachel Hornung,Vighnesh Birodkar,Jimmy Yan,Ming-Chang Chiu,Krishna Somandepalli,Hassan Akbari,Yair Alon,Yong Cheng,Josh Dillon,Agrim Gupta,Meera Hahn,Anja Hauth,David Hendon,Alonso Martinez,David Minnen,Mikhail Sirotenko,Kihyuk Sohn,Xuan Yang,Hartwig Adam,Ming-Hsuan Yang,Irfan Essa,Huisheng Wang,David A. Ross,Bryan Seybold,Lu Jiang

Institution: Carnegie Mellon University, Google


Charta inscriptio: https://arxiv.org/pdf/2312.14125

Antequam Sora emissio, Google et CMU turmae VideoPoet deductae, technologiae video generationis Sorae similes, in itinere technico mense Decembri 2023 .

VideoPoet X secundas res ultra-longas, magnas actionis cohaerentis video tempore cohaerentes, generare potest, et nulla notitia specifica requiritur ut video generare.


Speciatim, VideoPoet maxime includere quae sequuntur:

- Praeordinata MAGVIT V2 video tessera et signum soni tokenizer soni possunt imagines, videos et sonos variarum longitudinum in codicem discretum, sequentia in vocabulario unita converti possunt. Codices hi cum exemplaribus linguae textualis componi possunt et cum aliis modalibus facile coniungi possunt sicut textus.

- Exemplar linguae autoregressivae discentes crucis modales inter video, imaginem, auditum et textum praestare possunt, et proximum signum video vel audio in ordine autoregressivo modo praedicunt.

- Varii multimodis generationis doctrinarum proposita introducuntur in ampla lingua exemplar fabricandi formatio, inter textum ad video, textum ad imaginem, ad imaginem ad video, ad videndi compagem continuationem, video reparationem/expansionem, stylizationem video et video ad audio, etc. . Ceterum, haec munera inter se coniungi possunt ut facultates nullas sample auctas (v.g., textus auditionis attingant).


Diversa a primariis exemplaribus, VideoPoet non fundatur in exemplo diffusionis, sed magna multi- modalis exemplar, quod habere potest T2V, V2A et alias facultates.

In summa, VideoPoet tres maiores utilitates habet: longiorem videos generans, exactiorem potestatem obtinens, motus camerae potens.


Optimus CENSOR Award

Optimus omnium, in colloquio ICML 2024, optimus CENSOR Award nuntiatus est.


Notae:

https://x.com/icmlconf/status/1815646373791842545

https://x.com/icmlconf/status/1815646856241672211