nachricht

sergey brin: google hat es nicht gewagt, transformer zu verwenden, und alle autoren sind weggelaufen. jetzt schreibe ich jeden tag code

2024-09-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

maschinenherzbericht

herausgeber: jiaqi

als weltweit größtes suchunternehmen war google im silicon valley schon immer einzigartig. die enormen werbeeinnahmen, die die suche mit sich bringt, ermöglichen es den beiden gründern sergey brin und larry page, einen schritt zurückzutreten und das leben in ruhe zu genießen.

am 15. september 1997 registrierten sergey brin und larry page eine website namens „google“.

erst ende 2022 wurde chatgpt auf der ganzen welt populär und google, der ursprüngliche anführer der ki-welle, schien zu erkennen, dass sich sein status gewandelt hatte. im vergangenen jahr scheinen wir uns daran gewöhnt zu haben, dass dieser technologieriese als „aufholer“ auftritt.

seit letztem jahr haben die medien enthüllt, dass sergey brin an die front zurückgekehrt ist und selbst code schreibt. der frühere ceo eric schmidt griff in einem vortrag an der stanford university sogar direkt das desorganisierte system „nur einen tag pro woche arbeiten“ an: „wenn wir gegen openai verlieren, werden wir gegen startups verlieren, wenn wir weitermachen.“

schmidt spricht in stanford

gleichzeitig werden mit der zunehmenden größe von google einige symptome der „krankheit großer unternehmen“ immer offensichtlicher. viele google-kündigungs-„aufsätze“ zeigen, dass die wurzel der probleme von google nicht in „technologie“, sondern in „kultur“ liegt. beispielsweise mangelt es den mitarbeitern an sendungsbewusstsein und das unternehmen hat umständliche systeme und prozesse eingerichtet, um risiken zu vermeiden.

appsheet-gründer praveen seshadri kündigte seinen abschied von google an. in seinem blog hieß es, das unternehmen habe sich verirrt und die mitarbeiter seien im system gefangen.

was stimmt mit google nicht? „was die produktivität der google-mitarbeiter jeden tag wirklich beeinträchtigt, ist personalmangel, sich ändernde prioritäten, häufige entlassungen, stagnierende löhne und die mangelnde nachverfolgung von projekten durch das management“, sagte die alphabet-gewerkschaft.

obwohl google beim „chatgpt-gegenangriff“ aufholt, unterscheidet es sich etwas von der art, sich auf die veröffentlichung von gpt-5 im openai-kommentarbereich zu freuen. wenn gemini enthüllt wird, wird es immer versehentlich „überschlagen“. bei der erstveröffentlichung kam es zu demo-betrug. seitdem wurde gemini vielfach kritisiert, weil es rassistisch voreingenommene porträts erstellte, in denen suggeriert wurde, dass jeder jeden tag einen stein essen und käse mit kleber auf die pizza kleben solle.

letzten monat veröffentlichte google eine erweiterte version von gemini und brachte auch gemini live auf den markt, einen auf gpt-4o basierenden sprachassistenten. bei der demonstration machte gemini live jedoch immer noch einen fehler.

bei der made by google-veranstaltung im august scheiterten die ersten beiden tests der fotoaufnahme- und bilderkennungsfunktionen von gemini live, und erst beim dritten wechsel meines telefons war der erfolg erfolgreich.

warum sollten wir an die spitze der technologie zurückkehren, wenn wir bereits finanzielle freiheit haben? wie sieht google gemini, das häufig „umgekippt“ ist? was stimmt mit google im wettbewerb der technologiegiganten nicht? welche rolle wird es in diesem wettbewerb spielen? auf dem gestrigen all-in-gipfel äußerte sergey brin, der schon lange nicht mehr vor den medien aufgetreten war, in einem interview seine ansichten.

brins hauptpunkte sind:

er beschloss, an die spitze der technologie zurückzukehren, weil die fortschritte im bereich der ki so aufregend waren und er als informatiker diese welle nicht verpassen wollte.

die ki-technologie ist nicht nur eine erweiterung der suche, sie wird ein breiteres spektrum an veränderungen berühren.

im vergleich zu „expertenmodellen“, die sich auf ein bestimmtes gebiet spezialisieren, ist brin hinsichtlich allgemeiner modelle optimistischer. dies liegt daran, dass google damit begonnen hat, bestimmte kenntnisse und fähigkeiten in formale beweismodelle zu integrieren universelles sprachmodell.

derzeit besteht eine stetige nachfrage nach rechenleistung, ein anstieg der nachfrage „von 100 megawatt auf 1 gigawatt, 10 gigawatt oder gar 100 gigawatt“ sei jedoch schwer zu erkennen.

im bereich der anwendungen der künstlichen intelligenz glaubt brin, dass die biologie die anwendung der ki-technologie relativ gut umgesetzt hat, während sich der bereich der robotik noch in einem stadium befindet, in dem die menschen sie nach dem ansehen von demonstrationen als magisch empfinden und noch nicht das niveau erreicht hat, das möglich ist im täglichen leben verwendet.

obwohl ki gelegentlich große fehler macht, sollte sie rechtzeitig veröffentlicht werden. ki ist keine technologie, die man so lange versteckt, bis sie perfekt ist. was noch beängstigender ist als die „dummheit“ der ki, ist die tatsache, dass google damals zu zögerlich war, transformer einzusetzen, und alle autoren des papiers zurücktraten.

der wettbewerb zwischen technologiegiganten im bereich ki ist eigentlich eine gute sache, aber brin wird den großen modellrankings weiterhin große aufmerksamkeit schenken.

nachfolgend der vollständige text des interviews:

brin: ich dachte ursprünglich, ich wäre nur hier, um an einem podcast teilzunehmen, aber ich hatte nicht erwartet, dass es so viele zuschauer geben würde. glückwunsch zu ihrer erfolgreichen karriere. das hat mich ein wenig schüchtern gemacht.

moderator: vielen dank, dass sie sich die zeit genommen haben, mit mir zu chatten. heute steht ki am wendepunkt, die welt zu verändern. 1998 gründeten sie und larry page google. ich habe gehört, dass sie kürzlich bei google an der erforschung von ki beteiligt waren. große sprachmodelle und konversations-ki-tools stellen eine bedrohung für die google-suche dar, ein diskussionsthema unter vielen branchenanalysten und experten. wie lange sitzen sie also jeden tag bei google? was machst du?

brin: ehrlich gesagt gehe ich fast jeden tag zur arbeit, aber heute habe ich einen tag verpasst, weil ich in ihrer sendung auftreten musste. als informatiker habe ich noch nie so spannende fortschritte in der ki erlebt wie in den letzten jahren. der fortschritt der ki ist wirklich schockierend!

in den 1990er-jahren, als ich noch student war, spielte ki im lehrplan kaum eine rolle und war in lehrbüchern nur eine fußnote. worüber im lehrbuch die rede ist, ist, dass frühere leute verschiedene experimente durchgeführt haben, aber ki wirklich nicht funktioniert und die arbeit an ki eine „sackgasse“ ist. das ist alles, was sie über ki wissen müssen.

und dann begannen diese leute, die an neuronalen netzen arbeiteten, irgendwie auf wundersame weise, fortschritte bei ki-methoden zu machen, die in den 1960er und 1970er jahren aufgegeben worden waren – mehr berechnungen, mehr daten, intelligentere algorithmen ... was in den letzten zehn jahren passiert ist, ist einfach unglaublich. heutige ki-tools können fast jeden monat neue fähigkeiten demonstrieren, und diese fähigkeiten können sich schnell verdoppeln. die fähigkeiten von computern sind wirklich erstaunlich. deshalb entschloss ich mich, an die front der technik zurückzukehren, weil ich nicht auf all das verzichten wollte, was ich als informatiker erleben konnte.

moderator: glauben sie, dass ki eine erweiterung der suche ist, oder wird sie die art und weise, wie menschen informationen abrufen, neu definieren?

brin: ich denke, dass ki jeden aspekt des täglichen lebens berührt, und die suche ist einer davon. die auswirkungen von ki sind fast überall spürbar, auch in der programmierung. ich habe jetzt eine andere perspektive auf die ki-programmierung. code von grund auf zu schreiben ist wirklich schwierig, vor allem im vergleich zur steuerung der ki-programmierung, oder?

moderator: was haben sie mit ki programmiert?

brin: tatsächlich schreibe ich selbst ein wenig code, nur zum spaß. manchmal lasse ich ki code für mich schreiben, und die erfahrung ist sehr interessant. ich möchte zum beispiel wissen, wie gut das ki-modell von google sudoku spielt. deshalb habe ich das ki-modell gebeten, selbst viel code zu schreiben, der automatisch sudoku-rätsel generieren kann, und diese fragen dann zur bewertung an die ki weiterzuleiten. ki ist der aufgabe, diese codes zu schreiben, mehr als gewachsen.

aber als ich mit den ingenieuren darüber gesprochen habe, gab es viel hin und her, und eine halbe stunde später kam ich zurück und die ki war fertig. sie waren beeindruckt und es war klar, dass sie ki-tools nicht so häufig zur codierungsunterstützung nutzten, wie ich dachte.

sudoku

moderator: das ist so lustig. einige modelle sind gut darin, sudoku-rätsel zu lösen, andere können sachliche informationen über meine welt beantworten und andere sind auf das entwerfen von häusern spezialisiert. gleichzeitig arbeiten viele forscher an der entwicklung allgemeiner sprachmodelle im großen maßstab. welchen weg wird ihrer meinung nach die zukunft einschlagen?

ich weiß nicht, woher diese aussage kommt, dass es ein „gottmodell“ geben wird. aus diesem grund investieren investoren geld in die ki. sobald das „gott-modell“ entwickelt ist, kann man „in einem schritt die welt erreichen“. oder es gibt viele kleine modelle, die auf einer bestimmten anwendung basieren und in einem agenten zusammenarbeiten. wie wird sich ihrer meinung nach die modellentwicklung und -anwendung in zukunft weiterentwickeln?

brin: wenn man vor 10 bis 15 jahren zurückblickt, wurden unterschiedliche ki-technologien zur lösung völlig unterschiedlicher probleme eingesetzt. beispielsweise sind die ki beim schachspielen und die bilderzeugungstechnologie sehr unterschiedlich, und sie sind jeweils sehr unterschiedlich.

moderator: genauso wie google kürzlich ein gnn-modell veröffentlicht hat, das eine bessere leistung als alle physikalischen vorhersagemodelle bietet. ich bin mir nicht sicher, ob sie das wissen, aber es wurde von google gesendet.

brin: das ist großartig, aber ich weiß es nicht (umständlich).

moderator: dieses modell ist eine völlig andere architektur.

brin: aus historischer sicht gibt es ki in vielen verschiedenen systemen. nehmen wir als beispiel die jüngste internationale mathematikolympiade (imo), wo das modell von google die silbermedaille gewann, nur einen punkt von der goldmedaille entfernt (einzelheiten finden sie in den früheren berichten von machine heart: google ai gewann die silbermedaille bei der imo mathematikolympiade). und sein mathematisches argumentationsmodell alphaproof kommt auf, verstärkungslernen ist also zurück).

tatsächlich haben wir drei ki-modelle verwendet: eines, das für die beweisführung von theoremen zuständig ist, eines, das sich auf geometrische probleme konzentriert, und eines, das ein allgemeines sprachmodell ist. allerdings haben wir erst vor ein paar monaten begonnen, aus unserer bisherigen arbeit zu lernen und einige der kenntnisse und fähigkeiten aus dem formalen beweismodell in ein allgemeines sprachmodell zu integrieren.

dies ist noch in arbeit, aber ich denke, der trend wird in richtung eines einheitlicheren modells gehen. ich bin mir nicht sicher, ob es sich um das sogenannte „gott-modell“ handelt, aber wir bewegen uns auf jeden fall in richtung einer art gemeinsamer architektur oder sogar eines gemeinsamen modells.

moderator: wenn dies die zukünftige richtung ist, werden zum trainieren und verbessern dieses sehr großen modells zwangsläufig riesige rechenressourcen benötigt.

brin: rechenleistung ist unverzichtbar. ich habe artikel gelesen, die einen anstieg der nachfrage nach rechenleistung vorhersagen, von 100 megawatt auf 1 gigawatt, 10 gigawatt oder sogar 100 gigawatt. ich habe diesbezüglich vorbehalte. in den letzten jahren haben algorithmeninnovationen und -optimierungen zu größeren leistungsverbesserungen geführt als die erhöhung der hardware-rechenleistung.

moderator: sind die derzeit hohen investitionen in rechenleistung also unzumutbar? alle reden über nvidias gewinne, gewinne und marktkapitalisierung. es unterstützt das wachstum von hyperscale-computing und infrastruktur, die den aufbau dieser riesigen modelle ermöglicht. ist dieser trend wirklich sinnvoll? vielleicht macht es ja sinn, warum sollte nvidia sonst so viel machen?

brin: zunächst möchte ich sagen, dass ich kein ökonom oder marktanalyst bin. meine ansichten basieren ausschließlich auf der perspektive eines informatikers. da wir einer großen nachfrage gegenüberstehen, bauen wir so schnell wie möglich rechencluster auf. google cloud-kunden wollen beispielsweise einfach viele ppus, gpus und alles. wir mussten kunden abweisen, weil wir selbst nicht über genügend karten verfügten, und verließen uns intern auf diese ressourcen, um unsere eigenen modelle zu trainieren und bereitzustellen. daher halte ich es für sinnvoll, dass große unternehmen ihre rechenleistung aktiv ausbauen. ich denke nur, dass es schwierig ist, aus der aktuellen situation direkt den schluss zu ziehen, dass der zukünftige bedarf an rechenleistung von „100 megawatt auf 1 gigawatt, 10 gigawatt oder sogar 100 gigawatt“ steigen wird.

gastgeber: aber die geschäftlichen bedürfnisse sind da.

brin: ich verstehe, dass kunden ein breites spektrum an anforderungen haben. sie möchten inferenzaufgaben an verschiedenen ki-modellen durchführen und diese modelle auf eine endlose flut neuer szenarien anwenden. ihr bedarf ist derzeit unbegrenzt.

moderator: welche aspekte haben ihrer meinung nach im anwendungsbereich der ki, sei es robotik oder biologie, die bedeutendsten erfolge erzielt? gibt es einen anwendungsfall, bei dem sie dachten: „wow, das ist so nützlich“? welche bereiche sind anspruchsvoller und die implementierung von anwendungen kann länger dauern als erwartet?

brin: meine antwort ist biologie. alphafold gibt es schon seit einiger zeit. es gibt es schon seit einiger zeit, und wenn ich mit biologen spreche, wird es von fast allen genutzt. die neueste version von alphafold, alphafold 3, repräsentiert eine neue art von ki-technologie. wie ich bereits erwähnt habe, glaube ich, dass der zukünftige trend in der vereinheitlichung von modellen liegt.

was roboter betrifft, bin ich in einem „wow-stadium“, wie zum beispiel: „wow, der roboter kann tatsächlich hausarbeit machen!“ aber man muss wissen, dass dahinter möglicherweise nur ein fein abgestimmtes allgemeines sprachmodell steckt. in den meisten fällen sind sie noch nicht für den täglichen gebrauch geeignet.

moderator: sehen sie die zukunft der roboter?

brin: vielleicht ... aber ich habe das genaue nicht gesehen ...

moderator: aber hat google nicht auch ein robotergeschäft? allerdings wurde es später abgerissen und verkauft.

brin: google war im robotergeschäft tätig.

moderator: vielleicht ist es einfach der falsche zeitpunkt.

brin: ehrlich gesagt lag das wahrscheinlich daran, dass wir zu voreilig waren. boston dynamics hat so viele starprodukte, aber ich kann mich nicht einmal daran erinnern, was google gemacht hat. jedenfalls hatten wir fünf oder sechs produkte, die peinlich waren, aber sie waren cool und hinterließen einen bleibenden eindruck. wenn man nur sieht, wie leistungsfähig das aktuelle universelle sprachmodell ist und wie multimodale technologie es robotern ermöglicht, szenen zu verstehen, war es damals noch ein bisschen albern, darüber nachzudenken. ohne diese ki-technologien standen wir damals wie auf einem laufband still und konnten nicht vorankommen.

googles plan, roboter zu entwickeln, hatte einst gute karten: „vater von android“ andy rubin, der berühmte roboterhersteller boston dynamics und der berühmte humanoide roboter atlas … doch schon nach fünf jahren, im laufe des jahres, war es soweit geplant, sich aufzulösen und neu zu organisieren, sich dann aufzulösen und erneut zu organisieren. nacheinander sind leitende angestellte zurückgetreten, verkaufspläne wurden ausgesetzt und mehrere große unternehmen haben sich verkauft ...

moderator: sie investieren viel zeit in die forschung und entwicklung von kerntechnologien. haben sie sich auch viel mühe mit dem produkt gegeben? wie wird sich in einer zukünftigen welt, in der ki allgegenwärtig ist, die art und weise der mensch-computer-interaktion weiterentwickeln und wie wird sich unser tägliches leben verändern?

brin: dies scheint ein thema für gespräche mit kollegen in der teestube zu sein.

gastgeber: würde es ihnen etwas ausmachen, es mit uns zu teilen?

brin: macht mir nichts aus, es fällt mir schwer, mir etwas auszudenken, das nicht peinlich ist.

moderator: es ist in ordnung, die geschichte „du hast einen freund“ zu erzählen.

brin: was in zukunft passieren wird, ist wirklich schwer zu sagen. ki-technologie ist die basis für die realisierung von anwendungen. beispielsweise hat jemand eine brisante demo veröffentlicht, die besonders erstaunlich war, aber von der demonstration bis zur tatsächlichen umsetzung in der produktion braucht es zeit. ich weiß nicht, ob sie das astra-modell ausprobiert haben, mit dem sie live-videos abspielen können und das erkennen kann, was in ihrer umgebung vor sich geht.

moderator: sie können es verwenden, oder?

brin: ich werde auf jeden fall zugang bekommen. manchmal bin ich einer der letzten, der zugang erhält. wir haben jetzt ein stadium erreicht, in dem die leute, nachdem sie ki kennengelernt haben, vielleicht sagen: „oh mein gott, das ist erstaunlich.“ und dann denken sie: „nun, es funktioniert in 90 prozent der fälle. „alles funktioniert richtig.“ aber dann fragen sie sich vielleicht: „wenn es in 10 % der fälle fehler oder langsame reaktionen gibt, ist diese technologie dann wirklich gut genug?“ wir müssen also hart daran arbeiten, diese details zu verbessern, um sicherzustellen, dass sie schnell und zuverlässig ist und noch mehr. wenn dies tatsächlich geschieht, ist das wirklich eine erstaunliche leistung.

moderator: ich habe eine geschichte gehört und sollte ihnen etwas erzählen, bevor ich auf die bühne gehe. vor einer einführungsveranstaltung zeigte ihnen eine gruppe von ingenieuren, dass ki zum schreiben von code verwendet werden kann, und sie sagten: „wir haben es noch nicht in gemini bereitgestellt, weil wir sicherstellen wollen, dass es nicht kaputt geht.“ zurückhaltung bei google. damals sagten sie: „nein, da es code schreiben kann, sollte es gestartet werden.“ viele leute haben mir diese geschichte erzählt. weil sie glauben: „es ist äußerst wichtig, solche bemerkungen von ihnen, dem gründer, zu hören, denn sie zeigen, dass der konservatismus google nicht vollständig übernommen hat, und wir freuen uns darauf, dass google weiterhin innovationen anführt.“ hast du das wirklich gesagt?

brin: ich erinnere mich nicht an die genauen details. ehrlich gesagt sieht es nach etwas aus, was ich tun würde.

moderator: für mich wird das zum problem, weil google so groß ist, dass es viel geld kostet, wenn es einen fehler macht.

brin: dann habe ich immer noch etwas, wovor ich angst haben muss. der ausgangspunkt des aktuellen sprachmodells lässt sich auf das transformer-papier vor 6 oder 8 jahren zurückführen. aber die autoren dieser papiere sind alle von google zurückgetreten. herzlichen glückwunsch an sie! damals waren wir zu schüchtern, transformer einzusetzen.

brin: und egal wie leistungsfähig die ki ist, manchmal machen sie dennoch fehler und sagen peinliche dinge. aber gleichzeitig kann uns ki bereits bei dingen helfen, die wir noch nie zuvor getan haben. ich programmiere zum beispiel mit meinen kindern und arbeite an teilweise äußerst komplexen problemen.

allein durch die rücksprache mit der ki können sie direkt in die programmierung einsteigen und komplexe apis und tools erlernen, deren erlernung normalerweise einen monat dauern würde. diese fähigkeit ist fast magisch. wir müssen bereit sein, einige fehler zu machen und risiken einzugehen. ich glaube, dass sich unsere reaktion in diesem bereich verbessert hat. natürlich haben sie vielleicht viele „dumme“ ki-momente gesehen, aber ...

moderator: das ist akzeptabel. schließlich verfügen sie bereits über reichtum und freiheit, da sie auf einer riesigen menge an aktien sitzen. ich meine, sie sind bereit, die peinlichkeit in kauf zu nehmen, weil sie in dieser phase so wichtig ist.

brin: ich mache das wegen meines vorrats nicht, okay? aber denken sie darüber nach: kann ich diese fehler wirklich akzeptieren? ist das die magie, die wir der welt präsentieren? ich denke, was wir vermitteln müssen, ist: „sehen sie, das ding ist erstaunlich.“ ki wird gelegentlich große fehler machen, aber ich denke, wir sollten sie rechtzeitig veröffentlichen und den leuten die möglichkeit geben, zu experimentieren und zu sehen, welche neuen anwendungen sie finden können. ki ist keine technologie, die man fest im griff hat und versteckt, bis sie perfekt ist.

moderator: glauben sie, dass ki so tiefgreifende auswirkungen auf die welt haben und so viel wert schaffen wird, dass es nicht mehr nur ein einfacher wettbewerb zwischen google, meta und amazon sein wird? jeder betrachtet es als einen geschäftlichen krieg, aber ist das möglich? am besten. wie sehen sie die breiten perspektiven, die ki mit sich bringt, und welche rolle wird google dabei spielen?

brin: ich denke, wettbewerb ist in gewisser weise sehr hilfreich, weil alle großen tech-player miteinander konkurrieren, und übrigens war google in einigen rankings vor ein paar wochen die nummer eins, und als ich das letzte mal nachgeschaut habe, haben wir immer noch das topmodell geschlagen. nur......

moderator: es gibt mehrere schlechte indikatoren. sie legen also wert auf modellbewertungen!

brin: ich habe nicht gesagt, dass es mir egal ist. als chatgpt auf den markt kam, war google wirklich im rückstand, und jetzt haben wir einen langen weg zurückgelegt. ich bin sehr zufrieden mit den fortschritten, die google derzeit macht. daher werden wir die model-rankings auf jeden fall im auge behalten. ich finde es gut, dass es so viele ki-unternehmen gibt, sei es openai, anthropic oder mistral. das bedeutet, dass der ki-bereich schnell wächst und voller dynamik ist.

zu ihrer frage: ich denke, ki hat einen enormen wert für den menschen. wenn sie an meine studienzeit zurückdenken, gab es noch kein internet, wie wir es heute kennen, und die beschaffung grundlegender informationen und die kommunikation mit menschen erforderte einen enormen aufwand. vor der popularität von mobiltelefonen hatten wir weltweit enorme leistungsverbesserungen erzielt, und die heutige ki-technologie ist zweifellos ein weiterer großer leistungssprung. mittlerweile hat fast jeder in irgendeiner weise zugang zu ki. ich finde es sehr spannend, es ist großartig.