2024-08-15
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Veröffentlicht mit Genehmigung von Heart of the Machine
Autor: Li Mu
- Lassen Sie mich meinen Freunden über die Fortschritte, Kämpfe und Überlegungen des LLM im ersten Jahr des Unternehmertums berichten.
Als ich im fünften Jahr bei Amazon war, dachte ich darüber nach, ein Unternehmen zu gründen, wurde aber durch die Epidemie verzögert. Im siebten und halben Lebensjahr spürte ich, dass es zu sehr juckte, also gab ich auf. Wenn ich jetzt darüber nachdenke: Wenn es etwas gibt, das ich in meinem Leben ausprobieren muss, würde ich es früh tun. Denn wenn man einmal richtig angefangen hat, wird man feststellen, dass es so viel Neues zu lernen gibt, und man fragt sich immer, warum man nicht schon früher angefangen hat.
Name: Ursprung von BosonAI
Bevor ich ein Unternehmen gründete, habe ich eine Reihe von Projekten durchgeführt, die nach Gluon benannt waren. In der Quantenphysik ist Gluon ein Boson, das Quarks zusammenhält, was symbolisiert, dass dieses Projekt als Gemeinschaftsprojekt von Amazon und Microsoft begann. Damals tätschelte der Projektmanager seinen Kopf und der Name kam heraus, aber die Benennung war für Programmierer sehr schwierig. Wir hatten jeden Tag mit verschiedenen Dateinamen und Variablennamen zu kämpfen. Am Ende benannte das neue Unternehmen es einfach nach Boson. Ich hoffe, dass jeder wissend lächelt, wenn er das Meme „Boson and fermions make up the world“ bekommt. Aber ich hätte nicht erwartet, dass viele Leute es als Boston bezeichnen würden.
„Ich bin in Boston. Treffen wir uns irgendwann?“ „Häh? Aber ich bin in der Bay Area.“
Finanzierung: Der Hauptinvestor ist am Tag vor der Unterzeichnung abgehauen
Ende 2022 hatte ich zwei Ideen, große Sprachmodelle (LLM) als Produktivitätswerkzeuge zu nutzen. Ich traf zufällig Zhang Yiming und fragte ihn um Rat. Nach der Diskussion fragte er: Warum nicht selbst LLM machen? Ich zuckte unbewusst zusammen: Unser Team bei Amazon machte das schon seit mehreren Jahren, mit Zehntausenden von Karten und vielen Schwierigkeiten wie Blabla. Yiminghehe sagte: Dies sind kurzfristige Schwierigkeiten, und wir müssen eine langfristige Perspektive einnehmen.
Mein Vorteil ist, dass ich auf die Ratschläge gehört habe und mich wirklich für LLM entschieden habe. Das Gründungsteam versammelte die Verantwortlichen für Daten, Pre-Training, Post-Training und Architektur und machte sich daran, Spenden zu sammeln. Mit etwas Glück erhielt ich schnell eine Startkapitalinvestition. Aber das Geld reicht nicht, um die Karte zu kaufen, also muss ich mir die zweite Runde holen. Der Anführer dieser Runde war eine sehr große Organisation, die mehrere Monate brauchte, um die Bedingungen zu dokumentieren und auszuhandeln. Doch am Tag vor der Unterzeichnung erklärte der Staatschef, er werde nicht investieren, was direkt zum Rückzug mehrerer Investoren führte. Ich bin den verbleibenden Investoren sehr dankbar, dass sie diese Runde abgeschlossen und das Ticket für LLM erhalten haben.
Wenn ich heute darüber nachdenke, könnte ich angesichts der damaligen Begeisterung des Kapitalmarkts tatsächlich weiter Geld sammeln. Vielleicht habe ich jetzt wie andere Freunde eine Milliarde in bar. Damals hatte ich Angst, dass es schwierig werden würde, auszusteigen, wenn ich zu viel Geld sammelte, oder dass ich in den Himmel geschleudert würde. Wenn ich darüber nachdenke, geht es bei der Gründung eines Unternehmens darum, sein Leben trotz aller Widrigkeiten zu verändern.
Maschinen: Die ersten Menschen, die Krabben aßen
Wenn Sie Geld haben, kaufen Sie eine GPU. Ich habe bei verschiedenen Lieferanten nachgefragt und die einhellige Antwort war, dass H100 ein Jahr später geliefert wird. Ich hatte eine Idee und schrieb direkt eine E-Mail an Lao Huang. Lao Huang antwortete sofort und sagte, er würde einen Blick darauf werfen. Eine Stunde später rief der CEO von Supermicro an. Ich zahlte etwas mehr, stellte mich an und bekam die Maschine 20 Tage später. Es war mir eine Ehre, früh Krabben zu essen.
Nachdem ich Krabben gegessen hatte, zweifelte ich an meinem Leben und stieß auf alle möglichen unglaublichen Käfer. Beispielsweise war die GPU-Stromversorgung unzureichend, was zu Instabilität führte. Später änderten die Ingenieure von Supermicro den Schnittwinkel der Glasfaser, was beispielsweise zu einer instabilen Kommunikation führte war nicht optimal, also haben wir einen neuen Plan erstellt, und später habe ich diesen Plan auch selbst übernommen. Ich verstehe es immer noch nicht. Wir haben weniger als tausend Karten gekauft, daher können wir als kleine Käufer gelten. Aber sind die großen Käufer nicht auf diese Probleme gestoßen, auf die wir gestoßen sind? Warum brauchen wir unser Debug?
Gleichzeitig haben wir auch die gleiche Anzahl an H100 gemietet, und es gab jeden Tag Probleme mit der GPU, und wir fragten uns sogar, ob wir die einzigen in dieser Cloud waren. Später sah ich den technischen Bericht von Llama 3, in dem stand, dass das Modell nach der Umstellung auf H100 während des Trainings hunderte Male unterbrochen wurde. Ich kann den Schmerz zwischen den Zeilen nachvollziehen.
Wenn man Eigenbau und Leasing vergleicht, liegen die Kosten für die Miete für drei Jahre fast auf dem gleichen Niveau wie die Kosten für den Eigenbau. Der Vorteil beim Mieten einer Karte ist die Sicherheit. Der Selbstbau hat zwei Vorteile. Erstens: Wenn Nvidias Technologie in drei Jahren immer noch weit vorne ist, kann es die Preise kontrollieren, sodass GPUs ihren Wert behalten können. Ein weiterer Grund sind die geringen Kosten eines selbst erstellten Datenspeichers. Der Speicher muss sich in der Nähe der GPU befinden. Unabhängig davon, ob es sich um eine große Cloud oder eine kleine GPU-Cloud handelt, ist der Speicherpreis hoch. Allerdings kann ein Modelltraining mehrere TB Speicherplatz zum Speichern von Prüfpunkten beanspruchen, und die Speicherung von Trainingsdaten beginnt bei 10 PB. Wenn Sie AWS S3 verwenden, kosten 10 PB zwei Millionen pro Jahr. Wenn dieses Geld für den Eigenbau verwendet wird, können es 100 PB sein.
Geschäft: Dank der Kunden haben wir im ersten Jahr die Gewinnschwelle erreicht
Wir hatten großes Glück, dass unsere Einnahmen und Ausgaben im ersten Jahr ausgeglichen waren. Unsere Ausgaben betreffen hauptsächlich Personal und Rechenleistung. Dank der finanziellen Ressourcen von Openai und des weiten Vorsprungs von Nvidia sind beide Ausgaben recht hoch. Unsere Einnahmequelle ist die Herstellung maßgeschneiderter Modelle für Großkunden. Die meisten Unternehmen, die sehr früh in LLM einstiegen, waren darauf zurückzuführen, dass ihre CEOs sehr entscheidungsfreudig waren. Sie ließen sich von der hohen Rechenleistung und den Arbeitskosten nicht einschüchtern und drängten ihre internen Teams entschieden dazu, gemeinsam neue Technologien auszuprobieren. Ich bin dem Kunden sehr dankbar, dass er uns Zeit zum Durchatmen gegeben hat, sonst wäre ich in den letzten Monaten zu verschiedenen Investoren geeilt.
Als nächstes sollten mehr Unternehmen versuchen, LLM zu nutzen, sei es zur Verbesserung ihrer eigenen Produkte oder zur Kostensenkung und Effizienzsteigerung. Der Grund dafür ist, dass einerseits die Technologiekosten sinken und andererseits Branchenführer (wie unsere Kunden) sukzessive Produkte auf LLM-Basis herausbringen und so die Branche aufrollen.
Wir achten auch auf die Implementierung von LLM auf toC. Die Top-Player der vorherigen Welle, wie etwa c.ai und perplexity, sind immer noch auf der Suche nach Geschäftsmodellen, aber es gibt auch etwa ein Dutzend kleine native LLM-Anwendungen mit guten Umsätzen. Wir haben ein Modell für ein Rollenspiel-Startup-Unternehmen bereitgestellt, das sich auf tiefgreifende Akteure konzentriert und Einnahmen und Ausgaben in Einklang bringt, was ebenfalls großartig ist. Die Modellfähigkeiten entwickeln sich immer noch weiter und es werden mehr Modalitäten (Sprache, Musik, Bilder, Videos) integriert. Ich glaube, dass es in Zukunft noch einfallsreichere Anwendungen geben wird.
Insgesamt sind Industrie und Kapital weiterhin ungeduldig. In diesem Jahr haben sich mehrere Unternehmen, die seit mehr als einem Jahr bestehen, aber Milliardenbeträge eingesammelt haben, für den Ausstieg entschieden. Von der Technologie bis zum Produkt ist es ein langer Prozess, normalerweise dauert es zwei bis drei Jahre. Wenn man die Entstehung von Benutzerbedürfnissen berücksichtigt, kann es länger dauern. Wir konzentrieren uns auf die Gegenwart, erkunden den Weg im Nebel und bleiben optimistisch für die Zukunft.
Technologie: Vier Phasen der LLM-Erkenntnis
Das Verständnis von LLM hat vier Phasen durchlaufen. Die erste Stufe ist von Bert zu GPT3. Es scheint, als ob die neue Architektur und Big Data machbar sind. Als wir bei Amazon waren, sind wir auch sofort reingegangen, um groß angelegte Schulungen und Produkteinführungen durchzuführen.
Die zweite Phase war die Veröffentlichung von GPT4, als ich mein Unternehmen gründete, und ich war sehr schockiert. Der Hauptgrund liegt darin, dass die Technologie nicht veröffentlicht wird. Gerüchten zufolge beträgt die Trainingszeit eines Modells schätzungsweise 100 Millionen und die Standarddatenkosten belaufen sich auf mehrere zehn Millionen. Viele Investoren fragten mich, wie viel es kosten würde, GPT4 zu reproduzieren, und ich sagte 300-400 Millionen. Später investierte einer von ihnen tatsächlich Hunderte Millionen.
Die dritte Phase ist das erste halbe Jahr der Unternehmensgründung. Wir können GPT4 nicht erstellen, also beginnen wir mit konkreten Problemen. Also begann ich, nach Kunden zu suchen, unter anderem aus den Bereichen Gaming, Bildung, Vertrieb, Finanzen und Versicherungen. Trainieren Sie Modelle basierend auf spezifischen Anforderungen. Zu Beginn gab es keine guten Open-Source-Modelle auf dem Markt, also haben wir von Grund auf trainiert. Später kamen viele gute Modelle heraus, was unsere Kosten senkte. Entwerfen Sie dann eine Bewertungsmethode basierend auf dem Geschäftsszenario, markieren Sie die Daten, sehen Sie, wo das Modell nicht funktioniert, und verbessern Sie es entsprechend.
Ende 2023 waren wir angenehm überrascht, als wir feststellten, dass unsere Modelle der Photon-Serie (eine Art Boson) in Kundenanwendungen GPT4 übertrafen. Der Vorteil der Anpassung des Modells besteht darin, dass die Inferenzkosten 1/10 des API-Aufrufs betragen. Obwohl APIs heute viel billiger sind, verbessert sich auch unsere eigene Technologie und kostet immer noch ein Zehntel der Kosten. Darüber hinaus werden QPS, Verzögerung usw. besser kontrolliert. In dieser Phase gehen wir davon aus, dass wir für bestimmte Anwendungen die besten Modelle auf dem Markt schlagen können.
Die vierte Phase ist das zweite Halbjahr der Unternehmensgründung. Obwohl der Kunde das im Vertrag gewünschte Modell erhielt, entsprach es nicht seinen Erwartungen, da GPT4 nicht ausreichte. Zu Beginn des Jahres stellten wir fest, dass es für das Modell schwierig war, einen weiteren Sprung zu machen, wenn es für eine einzelne Anwendung trainiert wurde. Wenn AGI rückblickend das Niveau normaler Menschen erreichen soll, wollen die Kunden das Niveau von Profis. Spiele erfordern professionelle Planer und professionelle Schauspieler, Bildung erfordert Goldmedaillen-Lehrer, Vertrieb erfordert Goldmedaillen-Verkäufe und Finanzen und Versicherungen erfordern erfahrene Analysten. Das alles ist AGI plus professionelle Branchenkompetenz. Obwohl wir damals voller Ehrfurcht vor AGI waren, hielten wir es für unvermeidlich.
Zu Beginn des Jahres haben wir eine Reihe von Higgs-Modellen (Gottteilchen, eine Art Boson) entworfen. Die Fokussierung auf allgemeine Fähigkeiten folgt den besten Vorbildern, sticht jedoch durch eine bestimmte Fähigkeit hervor. Die Kompetenzen, die wir ausgewählt haben, waren Rollenspiele: eine virtuelle Figur spielen, Lehrer spielen, Verkaufen spielen, Analysten spielen und so weiter. Auf Arena-Hard und AlpacaEval 2.0, die die allgemeinen Fähigkeiten testen, ist V2 mit den besten Modellen vergleichbar und liegt nicht weit dahinter auf MMLU-Pro, das die Fähigkeiten testet.
Higgs-V2 basiert auf der Llama3-Basis und führt dann das Nachtraining durch. Wir können nicht viel Geld ausgeben, um Daten wie Meta zu kennzeichnen, daher ist V2 besser als Llama3 Instruct. Der Grund dürfte hauptsächlich in der Innovation des Algorithmus liegen.
Dann haben wir einen Testbericht erstellt, um das Rollenspiel zu bewerten, einschließlich des Spielens entsprechend dem Charakter und des Spielens entsprechend dem Szenario. Es tut mir leid, dass mein Modell auf meiner Liste an erster Stelle stand. Während des Modelltrainings werden jedoch keine Daten zur Auswertung verwendet. Da dieser Evaluierungssatz von Anfang an für den persönlichen Gebrauch bestimmt ist und die Fähigkeiten des Modells wirklich widerspiegeln soll, ist es notwendig, eine Überanpassung von Modelldatensätzen zu vermeiden. Aber die Studenten, die die Bewertung durchführten, wollten einen technischen Bericht schreiben, also veröffentlichten sie ihn. Interessanterweise stammt das Rollenspiel-Testbeispiel von c.ai, ihre Modellfähigkeiten liegen jedoch am unteren Ende.
Die vierte Stufe des Verständnisses besteht darin, dass ein gutes vertikales Modell keine schwachen allgemeinen Fähigkeiten aufweisen sollte. Beispielsweise sind auch vertikales Denken und Befolgen von Anweisungen erforderlich. Langfristig müssen sich sowohl allgemeine als auch vertikale Modelle in Richtung AGI bewegen. Es ist nur so, dass das vertikale Modell etwas fachorientierter sein kann, mit hohen Punktzahlen in professionellen Kursen und guten allgemeinen Kursen, sodass die Forschungs- und Entwicklungskosten etwas niedriger sind und die Forschungs- und Entwicklungsmethoden anders sein werden.
Was ist mit der fünften Stufe des Verstehens? Es ist noch in Arbeit und ich hoffe, es bald teilen zu können.
Vision: Menschliche Kameradschaft
Es ist peinlich zu sagen, dass wir uns mit Technologie und Individualisierung für Kunden beschäftigen und dann langsam darüber nachdenken, welche Vision wir verfolgen. Wir schauen uns an, was Kunden wollen, was wir wollen und was wir möglicherweise in Zukunft brauchen. Was mich selbst betrifft, habe ich mich vor vielen Jahren nach einer Roboter-Nanny gesehnt, die mir dabei hilft, auf meine Kinder aufzupassen und sie zu begleiten, weil es mir schwer fiel, dies zu tun, und ich die aktuellen Erkenntnisse und Gedanken meiner Kinder nicht ganz verstand. Ich wünschte, ich hätte einen wirklich tollen virtuellen Assistenten bei der Arbeit, der mit mir neue Dinge erfinden könnte. Wenn ich älter werde, möchte ich auch interessante Roboter haben, die mich begleiten. Meine Prognose für die Zukunft ist, dass die Produktionswerkzeuge immer weiter entwickelt werden und eine Person Dinge erledigen kann, die zuvor nur von einem Team erledigt werden konnten, was dazu führt, dass die Menschen individueller und unabhängiger werden. was sie noch einsamer macht.
Zusammenfassend haben wir unsere Vision als „intelligente Agenten, die den Menschen begleiten“ formuliert. Ein intelligenter Agent mit hoher emotionaler Intelligenz und Online-IQ. Wenn es eine echte Person wäre, wäre es ein professionelles Team. Wenn Sie beispielsweise möchten, dass es mit Ihnen spielt, dann ist es ein professioneller Planer + Schauspieler. Begleiten Sie Sie beim Training und ermutigen Sie dann den Lehrer + den professionellen Sporttrainer. Wenn ich mit Ihnen lerne, kann ich erklären, was Sie nicht verstehen. Der Vorteil eines Models ist, dass es dich lange begleiten kann und dich wirklich versteht. Und ich kann „aufrichtig für Dich sein“.
Allerdings ist die aktuelle Technologie noch weit von der Vision entfernt. Die heutige Technologie kann Sie bei einem Gespräch begleiten. In vielen Situationen ist das Gespräch nicht so gut, der Inhalt fehlt und der IQ und EQ sind manchmal nicht online. Das sind alles Probleme, die jetzt gelöst werden müssen. Wenn Sie Freunde haben, die sich im Ausland bewerben möchten, können Sie sich gerne an uns wenden.
Team: Anspruchsvolle Dinge müssen auf das Team angewiesen sein
Erst nachdem ich ein Unternehmen gegründet hatte, wurde mir wirklich bewusst, wie wichtig ein Team ist. Als ich in einer großen Fabrik arbeitete, fühlte ich mich wie ein Idiot, meine Teammitglieder waren Idioten und sogar das Team war ein Idiot. Aber das Unternehmerteam ist ein Auto. Das Auto ist kleiner, aber es kann fahren, Lasten tragen, flexibel wenden und in jede Kurve fahren. Kurz nach der Gründung des Unternehmens warf MiHoYo Lao Cai einen Blick darauf und sah alle im selben Raum. Er sagte voller Emotionen, dass ein kleines Team großartig sei.
Natürlich gibt es einige Unannehmlichkeiten. Man muss jederzeit prüfen, ob Öl vorhanden ist, und man muss aufpassen, dass das Auto auf schwierigen Straßen nicht auseinanderfällt. Jedes Mitglied ist wichtig und es gibt keine Redundanz. Wenn eine Person nicht effektiv ist, kann es eine Reifenpanne sein. Menschen sind auch wertvoll. Eine Person kann einen Reifen verlieren.
Wenn ich in der Vergangenheit Projekte auswählte, wählte ich Projekte aus, deren Entwicklung ich leiten konnte. Das bedeutet aber auch, dass die Fragen nicht sehr anspruchsvoll sind. Ein Unternehmen zu gründen ist ein großes Problem und alles hängt vom Team ab. Obwohl in diesem Artikel viel „Ich“ verwendet wird, wird die Arbeit tatsächlich vom Team erledigt. Ohne das Team müsste ich möglicherweise meine Karriere ändern, um Kurse zu verkaufen.
Persönliches Streben: Ruhm oder Reichtum?
Bisher habe ich mich bei Entscheidungen darauf verlassen, dass ich meiner inneren Stimme folge. Nach der Arbeit werde ich promovieren, Videos drehen und ein Unternehmen gründen. Unternehmertum erfordert die Unterstützung einer starken Motivation, um endlose Schwierigkeiten zu überwinden. Dies erfordert eine tiefergehende Analyse der eigenen Motivationen.
Motivation entsteht entweder aus Verlangen oder aus Angst. Vor zehn Jahren hätte ich vielleicht mehr Leidenschaft für Ruhm und Reichtum gehabt, aber in meinem jetzigen Alter habe ich das Gefühl, dass der Grenznutzen von Geld nicht mehr hoch ist und auch der emotionale Wert, den Ruhm mit sich bringt, sehr gering ist. Meine tiefste Motivation ist die Angst, dass das Leben keinen Sinn haben könnte. Abgesehen von der Weite des Universums ist der Mensch selbst in der langen Geschichte der Menschheit nur ein Sandkorn. Kommen Sie unerwartet an und verschwinden Sie schnell. Auf der Erde haben 100 Milliarden Menschen gelebt, und die allermeisten von ihnen werden in der Geschichte keine Spuren hinterlassen. Ich erkenne die Tausenden von Namen in meinem Stammbaum kaum wieder.
Was ist also der Sinn der Existenz eines Menschen? Als Kind war ich deprimiert, weil ich nicht klar über dieses Problem nachdenken konnte. Unterbewusst möchte ich also Werte schaffen und der Existenz einen Sinn verleihen. Ich entscheide mich dafür, „weiterzumachen“, um meine Fähigkeit zur Wertschöpfung zu verbessern. Ich entscheide mich dafür, lange Videos aufzunehmen und Lehrmaterialien zu schreiben, um einen pädagogischen Wert zu schaffen Verstrickungen und Schwierigkeiten, die damit verbunden sind, und den Wert von Beispielen schaffen; Entscheide dich dafür, ein Unternehmen zu gründen und die Bemühungen vieler Menschen zu vereinen, um einen größeren Wert zu schaffen.
Nachwort
Su Hua und ich gingen letztes Jahr in Stanford spazieren. Er klopfte mir auf die Schulter und sagte: „Sag mir die Wahrheit, warum willst du damals ein Unternehmen gründen?“ Ich möchte meine Karriere ändern. Dann lächelte Su Hua.
Jetzt verstehe ich es, denn er hat die Höhen und Tiefen des Unternehmertums erlebt. Wenn ich diese Frage heute noch einmal beantworten würde, würde ich sagen: „Ich habe einfach den Verstand verloren.“ Aber ich bin froh, dass ich damals nicht damit gerechnet hatte, dass es so einfach sein würde, also bin ich kopfüber hineingesprungen. Ansonsten sieht vielleicht jeder eine „Reflexion über zehn Jahre Arbeit“. Ich denke, die Geschichte, die ich heute geschrieben habe, ist interessanter.
Gruß an alle Unternehmer.
(Schließlich sind die Rekrutierungsinformationen unseres Unternehmens (Bay Area und Vancouver) unter der Anzeige https://jobs.lever.co/bosonai. Wenn Sie Bewerbungen im Ausland haben, kontaktieren Sie uns bitte unter [email protected].)