nachricht

der vollständige text von shun xiangyangs rede beim young scientists 50² forum: 10 gedanken zu großen modellen

2024-09-28

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

am 28. september fand an der southern university of science and technology das 4. „young scientists 50² forum“ statt. shen xiangyang, ein ausländischer akademiker der national academy of engineering, hielt eine grundsatzrede zum thema „wie sollten wir über große modelle nachdenken?“. ära der allgemeinen künstlichen intelligenz“ und äußerte seine 10 gedanken zu großen modellen.

im folgenden sind die spezifischen inhalte seiner 10 gedanken aufgeführt:

1. rechenleistung ist die schwelle: der rechenleistungsbedarf großer modelle war in den letzten 10 jahren enorm. heute werden wir ein großes modell der künstlichen intelligenz erstellen und sagen, dass feststecken gefühle verletzt und fehlende blockaden keine gefühle bedeuten.

2. daten über daten: wenn gpt-5 herauskommt, kann das datenvolumen 200t erreichen. aber es gibt nicht so viele gute daten im internet, 20t dürften daher in zukunft zusätzlich zu den vorhandenen daten mehr multimodale daten und sogar künstlich synthetisierte daten erstellen wird benötigt.

3. das nächste kapitel des großen modells: es gibt noch viel zu tun in der multimodalen wissenschaftlichen forschung. ich glaube, dass eine sehr wichtige richtung die vereinheitlichung des multimodalen verständnisses und der generierung ist.

4. paradigmenwechsel der künstlichen intelligenz: nach der veröffentlichung von o1 änderte sich die ursprüngliche idee des gpt-vortrainings zum heutigen unabhängigen lernpfad, bei dem es sich um einen prozess zur stärkung des lernens im inferenzschritt und zum kontinuierlichen selbstlernen handelt. der gesamte prozess ist der art und weise, wie menschen denken und probleme analysieren, sehr ähnlich und erfordert auch viel rechenleistung.

5. große modelle breiten sich in tausenden von branchen aus: im zuge der welle des großmodellbaus in china werden immer mehr große modelle in branchen eingesetzt. dieser trend ist definitiv so und der anteil allgemein großer modelle wird in zukunft immer kleiner.

6. ki-agent, von der vision bis zur umsetzung: die superanwendung ist von anfang an da. diese superanwendung ist ein superassistent und ein superagent.

7. open source vs. closed source: ich denke, metas llama ist kein traditionelles open source. es öffnet nur ein modell und liefert ihnen nicht den originalcode und die daten. wenn wir open-source-systeme verwenden, müssen wir daher auch unsere eigenen köpfe, um das gesamtbild der closed-source-arbeit wirklich zu verstehen.

8. achten sie auf die governance der ki: künstliche intelligenz hat enorme auswirkungen auf tausende von branchen und die gesamte gesellschaft, und alle müssen sich dieser herausforderung gemeinsam stellen.

9. überdenken sie die mensch-computer-beziehung: nur wenn wir die mensch-computer-interaktion wirklich verstehen, können wir ein wirklich kommerziell wertvoller marktführer für jede generation von high-tech-unternehmen werden. sprich jetztopenaidie hinzufügung von microsoft bedeutet, dass diese ära noch zu früh ist, aber es gibt noch viel raum für fantasie in der zukunft.

10. die natur der intelligenz: obwohl große modelle alle schockiert haben, haben wir keine theorie über große modelle und deep learning. umkiüber die entstehung des problems wurde nur gesprochen, aber nicht klar erklärt.

„young scientists 50² forum“ ist das jährliche akademische treffen der new cornerstone science foundation, organisiert vonsüdliche universität für wissenschaft und technologie, tencent sustainable social value division und new cornerstone science foundation gemeinsam organisiert. die new cornerstone science foundation wurde von tencent mit einer investition von 10 milliarden yuan über einen zeitraum von 10 jahren gegründet und ist derzeit eine der größten gemeinnützigen wissenschaftsstiftungen in china. ihre gründung und ihr betrieb sind tencents langfristige investition in technologie gut. konkrete maßnahmen zur wissenschaftsförderung.

„young scientists 50² forum“ ist eine interdisziplinäre akademische austauschplattform für gewinner des „scientific exploration award“. der „scientific exploration award“ wurde 2018 ins leben gerufen. es handelt sich um einen gemeinnützigen preis, der von der new cornerstone science foundation finanziert und von wissenschaftlern geleitet wird. er ist derzeit eines der größten förderprojekte für junge wissenschaftliche und technologische talente in china. jeder gewinner wird seine große idee und seine neuesten forschungsergebnisse während der fünfjährigen förderperiode mindestens einmal im forum teilen. „50²“ bedeutet, dass die 50 jungen wissenschaftler, die jedes jahr mit dem „scientific exploration award“ ausgewählt werden, in den nächsten 50 jahren maßgeblichen einfluss auf wissenschaftliche und technologische durchbrüche haben werden.

die folgenden sindshen xiangyangder vollständige text der rede in diesem forum:

ich freue mich sehr, heute die gelegenheit zu haben, einige aktuelle erkenntnisse und erfahrungen im bereich der künstlichen intelligenz in shenzhen mit ihnen zu teilen.

ich mache weiteryao qizhizum thema künstliche intelligenz, über das herr sir gesprochen hat, möchte ich ihnen einige dinge erzählen, die wir jetzt im zeitalter großer modelle tun, insbesondere wenn ich dieses thema aus der perspektive der technologieintegration und des industriellen wandels betrachte.

tatsächlich ist es nicht nur die bedeutung der technologischen entwicklung im zeitalter der künstlichen intelligenz. die gesamte geschichte der menschlichen entwicklung ist eine geschichte der technologischen entwicklung. ohne technologie wird es kein bip-wachstum geben. wir werden nicht auf dinge wie das bohren von holz zum feuermachen oder die erfindung des rades zurückblicken, sondern nur auf die vielen bemerkenswerten durchbrüche in der physik in den letzten 100 jahren und die durchbrüche in der künstlichen intelligenz und informatik in den letzten 70 jahren . wir sehen, dass es viele entwicklungen gegeben hat.

das thema, über das wir heute sprechen, sind künstliche intelligenz und große modelle. in den letzten jahren muss jeder schritt für schritt von der neuen erfahrung mit künstlicher intelligenz geschockt gewesen sein. auch wenn ich mein ganzes leben lang mit künstlicher intelligenz gearbeitet habe, wäre es vor ein paar jahren schwierig, sich die situation heute vorzustellen.

ich möchte über drei beispiele sprechen: das erste besteht darin, text aus text zu generieren, das zweite darin, bilder aus text zu generieren, und das dritte darin, videos aus text zu generieren. gerade haben wir über ein künstliches intelligenzsystem wie chatgpt gesprochen, das nicht nur international, sondern auch im inland verfügbar ist. bevor ich heute hierher kam, um eine rede zu halten, fragte ich beispielsweise chatgpt, ob ich am young scientists 50²-forum von tencent teilnehmen und eine rede halten würde. über welche themen sollte ich angesichts meines hintergrunds sprechen? du denkst vielleicht, dass es ein bisschen lustig ist, aber tatsächlich denkst du, nachdem du es benutzt hast, dass es sehr gut ist.

jeder kennt chatgpt. vor zwei jahren hat openai ein system eingeführt, das diagramme generiert. vor sieben monaten veröffentlichte es sora. sie geben ihm eine nachricht und es generiert ein 60-sekündiges high-definition-video für sie, wie dieses video, in dem sie durch die straßen von tokio gehen. es ist sehr schockierend. (ich werde das video aus zeitgründen nicht zeigen.)

lassen sie mich ihnen ein beispiel für dieses vinzentinische diagramm geben. ich studiere computergrafik und glaube, dass ich ein gutes gespür dafür habe, ob ein foto gut oder schlecht ist. vor zwei jahren erschien dieses foto, das erste durch künstliche intelligenz erzeugte foto in der geschichte der menschheit, und es erschien auf dem cover eines amerikanischen modemagazins („cosmopolitan“). ein digitalkünstler in san francisco nutzte das openai-system und stellte eine frage, die zu diesem ergebnis führte. diese passage lautet: im weiten sternenhimmel stolzierte eine astronautin auf dem mars und ging auf ein weitwinkelobjektiv zu. ich habe nicht so viel künstlerisches talent, aber ich war sehr schockiert, als ich dieses bild sah. ich denke, sie werden mir zustimmen, wenn künstliche intelligenz ein solches bild zeichnet. diese künstliche intelligenz hat also ein sehr intelligentes niveau erreicht.

heute verfügen wir über so erstaunliche technologien und sogar so erstaunliche produkte. wir arbeiten auch zu hause sehr hart und bauen großmodelle. von der technologie über modelle bis hin zu folgeanwendungen arbeiten wir an allen aspekten. gerade hat akademiker yao auch über viele der neuesten arbeiten der tsinghua-universität gesprochen. deshalb möchte ich ihnen mitteilen, wie wir im zeitalter der allgemeinen künstlichen intelligenz über große modelle denken sollten. ich möchte einige meiner eigenen meinungen mitteilen.

der erste gedanke ist, dass die rechenleistung die schwelle darstellt.

das wichtigste an der heutigen allgemeinen künstlichen intelligenz, großen modellen und tiefem lernen ist das allgemeine wachstum der rechenleistung künstlicher intelligenz in den letzten jahren.

in den letzten 10 jahren ist die rechenleistung großer modelle gestiegen, zunächst um das sechs- bis siebenfache pro jahr, später um mehr als das vierfache pro jahr. lassen sie mich ihnen jetzt eine frage stellen: wenn etwas viermal im jahr steigt, wie oft wird es dann in 10 jahren zunehmen? denken sie zuerst darüber nach, ich werde später auf dieses thema zurückkommen.

jeder weiß, dass das unternehmen am meisten von dieser welle der entwicklung künstlicher intelligenz profitiertnvidiadie auslieferungen von nvidia nehmen von jahr zu jahr zu, die rechenleistung nimmt allmählich zu und der marktwert des gesamten unternehmens hat sich zu einem der drei unternehmen weltweit (microsoft, apple, nvidia) mit einem marktwert von 3 billionen us-dollar entwickelt. das wichtigste ist, dass jeder jedes jahr mehr rechenleistung benötigt. die zahl der im jahr 2024 gekauften nvidia-chips wächst beispielsweise immer noch rasant. es ist sehr schwierig, ein 100.000-karten-system aufzubauen die anforderungen an das netzwerk sind sehr hoch.

heute geht es um rechenleistung und große modelle. das wichtigste sind die skalierungsgesetze (rechenleistung und daten). je mehr rechenleistung, desto größer die intelligenz. wenn die gesamte datenmenge zunimmt, ist das wachstum der rechenleistung leider kein lineares wachstum, sondern das wachstum der rechenleistung ähnelt eher einem quadratischen wachstum.

denn wenn das modell größer wird, muss die datenmenge erhöht werden, um das modell zu trainieren. relativ gesehen ähnelt es also eher einem quadratischen wachstum. daher waren die anforderungen an die rechenleistung in den letzten 10 jahren enorm. deshalb möchte ich nur eines sagen: heute werde ich ein großes modell künstlicher intelligenz erstellen. wenn es feststeckt, verletzt es deine gefühle. wenn es nicht feststeckt, wirst du keine gefühle haben.

ich habe ihnen gerade eine frage gestellt: wenn der wert viermal pro jahr steigt, wie oft wird er dann in zehn jahren steigen? diejenigen von uns, die sich mit computern beschäftigen, wissen alle, dass es das sogenannte „mooresche gesetz“ gibt, das besagt, dass sich die rechenleistung etwa alle 18 monate verdoppelt. so hat sich intel im laufe der jahre entwickelt. warum hat nvidia intel jetzt überholt? ein sehr wichtiger grund ist, dass seine wachstumsrate unterschiedlich ist. wenn es sich in 18 monaten verdoppelt, wird es in 10 jahren wahrscheinlich um das hundertfache ansteigen, was ebenfalls sehr bemerkenswert ist; wenn es jedes jahr um das vierfache zunimmt, wird es in 10 jahren um das 1-millionenfache steigen. wenn man es so betrachtet, ist es verständlich, dass der marktwert von nvidia in den letzten 10 jahren so schnell gestiegen ist.

der zweite gedanke betrifft daten.

rechenleistung, algorithmen und daten sind drei wichtige faktoren für künstliche intelligenz. ich habe bereits erwähnt, dass wir viele daten benötigen, um allgemeine künstliche intelligenz zu trainieren. als chatgpt3 herauskam, befand es sich noch in der phase der veröffentlichung von papieren, und es hieß, dass es bis zum erscheinen von gpt-4 etwa 12 billionen token-daten benötigen würde. gpt-4 wird ständig trainiert heute wird geschätzt, dass die menge über 20 tonnen liegt. jeder, der sich für künstliche intelligenz interessiert, weiß, dass alle so lange auf die veröffentlichung von gpt5 gewartet haben, aber wenn gpt-5 herauskommt, kann die datenmenge meiner persönlichen einschätzung nach 200t erreichen . rückblickend gibt es nicht so viele gute daten im internet. wenn sie also in zukunft gpt-5 erstellen möchten, benötigen sie möglicherweise fast die besten mehr multimodale daten, sogar künstlich synthetisierte daten.

eine sehr interessante sache ist, dass in den letzten dreißig oder vierzig jahren jeder seine informationen online geteilt hat. früher dachten wir, wir würden für suchmaschinen arbeiten. was jetzt noch bemerkenswerter ist, ist unsere anhäufung in den letzten dreißig oder vierzig jahren jahrelang hat es wie chatgpt alles integriert und durch leistungsstarke rechenleistung ein solches modell der künstlichen intelligenz gelernt.

dritter gedanke, das nächste kapitel des großen modells.

sie haben bis heute gearbeitet, was sollten sie als nächstes tun? das erste ist das sprachmodell. die zugrunde liegende technologie von chatgpt ist die verarbeitung natürlicher sprache. heute arbeiten alle an einem multimodalen modell, dargestellt durch gpt-4, und viele der darin enthaltenen technologien sind computer vision. in zukunft müssen wir verkörperte intelligenz entwickeln. was ist der zweck verkörperter intelligenz? tatsächlich müssen wir ein weltmodell erstellen, auch wenn es multimodal ist, es gibt kein zugrunde liegendes physisches modell, also müssen wir ein solches weltmodell erstellen. das weltmodell bedeutet, dass sie nicht nur tausende von büchern lesen, sondern auch tausende von kilometern reisen müssen, um mehr wissen in der welt in ihr gehirn einzuspeisen. also sollten wir roboter bauen. ich denke, shenzhen sollte sich dazu entschließen, roboter und verkörperte intelligenz zu bauen. es gibt eine spezielle strecke bei robotern, die als autonomes fahren bezeichnet wird. beim autonomen fahren handelt es sich um einen besonderen roboter, der jedoch auf einer vorgegebenen route fährt.

was zu tun? es gibt noch viel zu tun in der multimodalen wissenschaftlichen forschung, und ich glaube, dass eine sehr wichtige richtung die vereinheitlichung des multimodalen verständnisses und der multimodalen generierung ist. selbst wenn sora gebaut wird, wird es getrennt sein. die generierung von multimodulen und das verständnis von multimodulen sind nicht einheitlich. in diesem bereich können wir viel wissenschaftliche forschungsarbeit leisten.

um ein beispiel zu nennen: mehrere meiner studenten gründeten ein großes modellunternehmen, step stars, und ihr multimodales verständnis war sehr gut. wenn sie einer künstlichen intelligenz ein bild zeigen, warum das verhalten auf dem bild als „ungültige fähigkeit“ bezeichnet wird, erklärt ihnen die ki, dass das bild wie ein kind aussieht, das auf dem boden rollt, seine mutter jedoch gleichgültig ist, und sie schaut auf mobiltelefone und trinkt getränke, daher wird diese fähigkeit von kindern als ungültige fähigkeit bezeichnet. ki wird mittlerweile immer besser darin, grafiken zu verstehen.

der vierte gedanke ist der paradigmenwechsel der künstlichen intelligenz.

vor zwei wochen veröffentlichte openai sein neuestes modell, o1. ich habe bereits erwähnt, dass gpt nach gpt4 nicht veröffentlicht wurde. jeder denkt, wenn es nur eine erhöhung der parameter großer modelle ist, hat es seinen höhepunkt erreicht. niemand weiß es, es wurde noch nicht veröffentlicht und wir haben in china kein größeres modell hergestellt.

aber jetzt ist eine neue dimension aufgetaucht, die nicht darin besteht, das vorherige vortraining (erweiterung) durchzuführen, sondern die erweiterung bei der inferenz durchzuführen. es hat sich von der ursprünglichen gpt-idee zum heutigen unabhängigen lernpfad gewandelt, bei dem es sich um einen prozess der stärkung des lernens im argumentationsschritt und des kontinuierlichen selbstlernens handelt.

in der vergangenheit haben wir vorab trainiert und im wesentlichen vorhergesagt, was das nächste wort und das nächste token sein wird. jetzt besteht die neue idee darin, einen entwurf zu erstellen und zu sehen, ob dieser weg richtig ist und dieser weg richtig ist. genau wie beim menschlichen gehirn gibt es ein schnelles und ein langsames system. genauso wie wenn wir mathematische probleme lösen, machen wir zuerst einen entwurf, um zu sehen, welche denkweise funktioniert, und dann schauen wir auf die chancen im prozess der optimierung der denkkette. bisher hat nur openai ein solches system veröffentlicht, und ich empfehle jedem, sich hier einige beispiele anzusehen.

das wichtigste ist, dass der gesamte prozess der art und weise, wie menschen denken und probleme analysieren, entwerfen, überprüfen, fehler korrigieren und von vorne beginnen, sehr ähnlich ist. dies erfordert auch viel rechenleistung.

der fünfte gedanke ist, dass große modelle in tausenden von branchen einzug halten.

alle unternehmen müssen sich den möglichkeiten stellen, die große modelle mit sich bringen, aber nicht jedes unternehmen muss ein universelles großes modell herstellen. wenn sie nicht einmal 10.000 karten haben, besteht keine chance, ein universelles großes modell herzustellen großes modell das modell muss mindestens 10.000 karten haben.

als beispielsweise gpt4 herauskam, betrug das gesamte trainingsvolumen 2×10^25 flops. bei einem so großen schulungsaufwand wird es ein jahr dauern, bis 10.000 a100-karten laufen, um diese menge zu erreichen. wenn diese menge nicht erreicht werden kann, wird es kein wirklich universelles großmodell geben. mit dem allgemeinen großmodell können wir auf dieser basis unsere eigenen großmodelle wie finanzen und versicherungen aufbauen. vielleicht können kilokalorien sehr gut funktionieren, und wir können daran etwas feinabstimmung vornehmen. für ein unternehmen verfügen sie über ihre eigenen daten, einschließlich interner daten und kundendaten. wenn sie diese daten herausnehmen und dutzende oder hunderte von karten verwenden, können sie ein sehr gutes modell für ihr unternehmen erstellen. es wird also schicht für schicht aufgebaut.

natürlich gibt es noch eine weitere sehr wichtige dimension, die mir sehr gefällt, nämlich das persönliche zukunftsmodell. heute haben wir nach und nach pcs und mobiltelefone verwendet (daten haben sich bis zu einem gewissen grad angesammelt) und ich glaube, dass es in zukunft eine solche superintelligente ki geben wird, die ihnen beim sammeln relevanter daten hilft daten, es kann ein eigenes persönliches modell erstellen. dies liegt im bereich des (persönlichen) endgeräts, und mobiltelefone sind eine selbstverständlichkeit. im pc-bereich fördern auch pc-unternehmen wie microsoft und lenovo das konzept des ki-pcs, sodass auch solche möglichkeiten bestehen.

in die welle des großmodellbaus in china werden immer mehr industrie-großmodelle einbezogen. hier ist ein beispiel. da chinas große modelle von der cyberspace administration of china genehmigt werden müssen, bevor sie online gehen, waren bis ende juli dieses jahres insgesamt 197 modelle in china von der cyberspace administration of china genehmigt worden davon waren 70 % industrie-großmodelle und 30 % allgemeine großmodelle. dieser trend ist definitiv so und der anteil allgemein großer modelle wird in zukunft immer kleiner. wir können zum beispiel ein finanzmodell auf der grundlage eines allgemeinen großmodells erstellen. dabei handelt es sich um ein großmodell, das von einem unternehmen in shanghai für seine finanzkunden hergestellt wird. wenn beispielsweise der finanzbericht von nvidia erscheint, können sie dessen highlights und probleme sofort zusammenfassen.

der sechste gedanke ist ai agent, von der vision bis zur umsetzung.

heute sehen wir, was die größten superanwendungen großer modelle sind und wo die größten chancen liegen. viele menschen sind immer noch auf der suche nach einer tollen app. tatsächlich war die superanwendung von anfang an da. diese superanwendung ist ein superassistent, ein superagent.

gates und ich haben viele jahre bei microsoft zusammengearbeitet und uns beide mit diesem thema beschäftigt. was ist daran so schwierig? die schwierigkeit liegt darin, einen arbeitsablauf zu verstehen, wenn man tatsächlich sinnvolle arbeit leisten möchte. wenn man eine frage stellt, kann diese schritt für schritt aufgeschlüsselt werden. was ich heute tun kann, ist etwas, das einen gewissen einfluss hat, zum beispiel als kundendienstmitarbeiter oder persönlicher assistent. aber viele aufgaben können nicht erledigt werden. sie müssen ein digitales gehirn sein. das große modell unten ist nur der erste schritt. die fähigkeiten des großen modells sind nicht leistungsstark genug, um ihnen bei der schrittweisen erledigung aller oben genannten arbeiten zu helfen. da sie einen solchen agenten wirklich so gestalten möchten, dass er dinge tun kann, muss er die folgenden probleme verstehen und jeder teil verfügt über entsprechende fähigkeiten.

wir haben anhand des heutigen modells bereits viele gute beispiele erstellt. sie können beispielsweise als ki-gesundheitsberater über ihr verständnis von kosmetika sprechen und kosmetika empfehlen.

der siebte gedanke ist open source und closed source.

bei der entwicklung der weltwissenschaft und -technologie in den letzten jahrzehnten, insbesondere der entwicklung der wissenschaft und technologie in china, sind zwei dinge sehr wichtig.

das erste ist die entstehung des internets. mit dem internet können sie alle dokumente und materialien online finden.

die zweite möglichkeit ist open source. open source ermöglicht es ihnen, den abstand zu führenden anbietern bei der antragstellung deutlich zu verkürzen. aber open source ist nicht dasselbe wie open source für große modelle und datenbanken, obwohl die fähigkeiten von open source mittlerweile denen von closed source nahe kommen. es gibt auch viele unternehmen in china, die open-source-sachen machen. das beste open-source-tool ist heute metas llama 3.1, das angeblich openai nahe kommt. ich glaube nicht, dass es sich um traditionelles open source handelt. es öffnet nur ein modell und liefert nicht den originalcode und die daten. daher müssen wir uns auch dazu entschließen ich verstehe wirklich die systemschließung großer modelle.

der achte gedanke besteht darin, der ki-governance aufmerksamkeit zu schenken.

da sich die ki so schnell entwickelt, misst die welt der ki-sicherheit große bedeutung bei. weil die auswirkungen dieser angelegenheit so groß sind, hat sie enorme auswirkungen auf tausende von branchen und die gesamte gesellschaft. die entwicklung der gesamten welt erfordert tatsächlich, dass sich alle gemeinsam damit auseinandersetzen.

der neunte gedanke besteht darin, die mensch-maschine-beziehung zu überdenken.

ich habe gerade vincents text, vincents bilder und vincents video vorgestellt – wie viel davon ist die intelligenz der maschine und wie viel davon ist der schock, den die mensch-computer-interaktion für uns auslöst?

vor etwa 10 jahren schrieb der kolumnist der „new york times“, john markoff, ein buch, das mir sehr gut gefällt: „machine of loving grace“, in dem die beiden linien der bisherigen technologieentwicklung zusammengefasst wurden: die eine ist künstliche intelligenz, die andere ist ia ( unter intelligent augmentation versteht man die verbesserung der intelligenz, also der mensch-computer-interaktion. nachdem computer verfügbar wurden, halfen sie den menschen bei vielen dingen, wie zum beispiel beim schachspielen.

tatsächlich können wir nur durch ein wirkliches verständnis der mensch-computer-interaktion zu führungskräften mit echtem kommerziellen wert für jede generation von high-tech-unternehmen werden. die heutige schnittstelle für künstliche intelligenz ist sehr klar geworden. der heutige vertreter ist chatgpt. aber von openai plus microsoft zu sprechen bedeutet, dass diese ära noch zu früh ist. sie sind zwar vorne, aber es gibt noch viel raum für fantasie in der zukunft.

der zehnte gedanke ist die natur der intelligenz.

obwohl große modelle heute jeden schockiert haben, haben wir keine theorie über große modelle und deep learning. heute würden wir uns über jede theorie freuen, die sich gut anfühlt. anders als in der physik wird aus physikalischer sicht alles, vom riesigen sternenhimmel bis zum kleinsten quantum, durch einige schöne physikalische gesetze beschrieben. heute gibt es keine solche theorie für künstliche intelligenz, die weder erklärbar noch robust ist. das heutige deep-learning-framework kann keine echte allgemeine künstliche intelligenz erreichen.

was die entstehung der künstlichen intelligenz angeht, haben alle nur darüber geredet, es aber nicht klar erklärt. warum entsteht intelligenz, wenn das modell groß genug ist? warum kann das 70b-modell mit intelligenz entstehen? es gibt keine solche wahrheit. deshalb arbeiten wir auch sehr intensiv an diesem thema. letzten sommer habe ich auch ein seminar an der hong kong university of science and technology mit dem thema „mathematische theorie für aufstrebende intelligenz“ organisiert. bei der diskussion über aufkommende intelligenz müssen einige wissenschaftliche und mathematische prinzipien klar erklärt werden und mehr menschen dazu bereit sein entdecken sie die notwendigkeit, mitzumachen, insbesondere mit dem aufkommen der tencent-projekte „science exploration award“ und „new cornerstone researcher“. zu den fragen gehören durchbrüche für die zukünftige entwicklung der künstlichen intelligenz.

herzlichen glückwunsch noch einmal an alle gewinner und nachwuchswissenschaftler. die entwicklung von wissenschaft und technologie, insbesondere der künstlichen intelligenz, muss von generation zu generation von jungen menschen vorangetrieben werden. nochmals vielen dank an alle.