robin lis interne rede enthüllte: bei der erörterung dreier großer kognitiver missverständnisse über große modelle wird die kluft zwischen den modellen in den future

robin lis interne rede enthüllte: bei der erörterung dreier großer kognitiver missverständnisse über große modelle wird die kluft zwischen den modellen in zukunft größer werden

2024-09-16

„die außenwelt hat ziemlich viele missverständnisse über große models“, heißt es in jüngsten medienberichten, eine interne rede von robin li wurde aufgedeckt. in einer kürzlichen kommunikation mit mitarbeitern sprach robin li über drei missverständnisse über große modelle und bezog sich dabei auf den wettbewerb großer modelle, die effizienz von open-source-modellen und intelligente agententrendwarten sie auf heiße themen.

robin li sagte, dass die kluft zwischen großen modellen in zukunft immer größer werden könnte. er sagte, dass die obergrenze großer modelle sehr hoch sei und noch weit von der idealsituation entfernt sei. daher müsse das modell weiterhin schnell iteriert, aktualisiert und aktualisiert werden, um über mehrere jahre hinweg kontinuierlich investieren zu können zehn jahre, um die benutzeranforderungen kontinuierlich zu erfüllen und die kosten zu senken.

nachfolgend der inhalt der internen rede

frage: manche leute denken, dass es zwischen den fähigkeiten großer modelle keine grenzen gibt?

robin li:ich bin mit dieser aussage nicht einverstanden. ich denke, dass es in der außenwelt ziemlich viele missverständnisse über große models gibt. jedes mal, wenn ein neues modell auf den markt kommt, wollen sie auf jeden fall sagen, wie gut sie sind, und ihnen jedes mal folgen.zum vergleich mit gpt-4o nehme ich testsätze oder erstelle einige listen und sage, dass meine punktzahl fast gleich ist oder sie in einigen einzelnen punkten sogar übertrifft, aber das beweist nicht, dass diese neu veröffentlichten modelle die fortschrittlichsten sind bei openal gibt es keine so große lücke.

die lücke zwischen den modellen ist mehrdimensional, unabhängig davon, ob es sich um die lücke bei den grundfähigkeiten wie verständnisfähigkeit, generierungsfähigkeit, logischem denken oder gedächtnis handelt.，wenn sie diese fähigkeit haben oder diese fragen beantworten möchten, wie viel wird es sie kosten? einige modelle haben möglicherweise eine sehr langsame inferenzgeschwindigkeit. obwohl sie den gleichen effekt erzielen, ist ihre erfahrung tatsächlich nicht so gut wie die der fortschrittlichsten modelle. und für das testsetbei der überanpassung geht jedes modell, das seine fähigkeiten unter beweis stellen möchte, in die rangliste. bei der rangliste muss er erraten, was andere testen und welche fragen ich verwenden und welche techniken ich aus der rangliste richtig machen kann oder test-sets. auf den ersten blick denken sie, dass die fähigkeiten sehr ähnlich sind, aber in der tatsächlichen anwendung gibt es immer noch eine deutliche lücke.

ein teil des self-media-hypes, gepaart mit der motivation, bei der veröffentlichung jedes neuen modells werbung zu machen, erweckt bei jedem den eindruck, dass der leistungsunterschied zwischen den modellen relativ gering ist. tatsächlich ist dies nicht der fall. im tatsächlichen nutzungsprozess erlaube ich unseren technischen mitarbeitern nicht, rankings zu erstellen. was die fähigkeiten des wenxin-großmodells wirklich misst, ist, ob sie die bedürfnisse der benutzer in bestimmten anwendungsszenarien erfüllen können was uns wirklich am herzen liegt.

wir müssen erkennen, dass es einerseits eine relativ offensichtliche lücke zwischen den modellfähigkeiten gibt und andererseits die obergrenze, die sie heute tun, immer noch weit von dem entfernt ist, was sie tatsächlich tun möchten idealzustand, also das modell es muss auch kontinuierlich und schnell iteriert, aktualisiert und aktualisiert werden.selbst wenn sie feststellen, dass die kluft heute nicht so groß ist, werden sie dann feststellen, ob sich die kluft in einem anderen jahr vergrößert hat? wer kann mehrere jahre oder sogar mehr als zehn jahre lang in diese richtung investieren, um den bedürfnissen der benutzer zunehmend gerecht zu werden, szenarien zu erfüllen und den anforderungen einer effizienzsteigerung oder kostensenkung gerecht zu werden?die kluft zwischen verschiedenen modellen wird nicht immer kleiner, sondern immer größer. wenn sie die tatsächlichen bedürfnisse nicht kennen, haben sie möglicherweise das gefühl, dass es fast ausreicht, nur die testsatzfragen zu beantworten.

sogenannte führungzwölf monate oder 18 monate im rückstand, ich glaube nicht, dass das so wichtig ist. jedes unserer unternehmen befindet sich in einem völlig wettbewerbsintensiven marktumfeld, es wird viele konkurrenten geben. wenn sie sicherstellen können, dass sie ihren konkurrenten immer 12 bis 18 monate voraus sind denken sie, dass 12 bis 18 menschen vor ihnen liegen. ein monat ist eine sehr kurze zeit.auch wenn sie garantieren können, dass sie ihren mitbewerbern immer einen schritt voraus sind6 monate, dann gewinnen, ihr marktanteil könnte sein70 %, während der gegner möglicherweise nur einen anteil von 20 % oder sogar 10 % hat.

f: einige leute sagen, dass das open-source-modell die lücke zum closed-source-modell schließt. wird dies das geschäftsmodell großer closed-source-modellunternehmen zerstören?

robin li:diese frage steht in engem zusammenhang mit der vorherigen frage. ich habe gerade gesagt, dass ein modell neben den fähigkeiten oder effekten auch effizient sein muss. genauer gesagt sollte das closed-source-modell als geschäftsmodell bezeichnet werden. ein kommerzielles modell ist eines, bei dem unzählige benutzer oder kunden die gleichen ressourcen und die f&e-kosten, maschinenressourcen und argumentationsressourcen teilen.gpu und das open-source-modell erfordern, dass sie eine reihe von dingen selbst bereitstellen. wie hoch ist die nutzungsrate der gpu nach der bereitstellung? unserwenxin großes modell3.5、4egal .0, die nutzungsrate beträgt mehr als 90 %. wie viele personen verwenden ein von ihnen bereitgestelltes open-source-modell? wir teilen der öffentlichkeit mit, dass das wenxin-modell mehr als 600 millionen mal am tag aufgerufen wird und die anzahl der täglich generierten token eine billion übersteigt. welches open-source-modell kann sagen, wie viele aufrufe es an einem tag tätigt und wie viele token es generiert? wie werden die kosten aufgeteilt, wenn niemand sie nutzt? wie können die inferenzkosten mit kommerziellen modellen verglichen werden?

vor der großen modellära war jeder daran gewöhnt, dass open source kostenlos und kostengünstig ist. zu dieser zeit musste man für kommerzielle produkte auf dem markt für jede version bezahlen, beispielsweise für den kauf einer computerinstallationfür windows muss microsoft möglicherweise viel geld verlangen, aber sie müssen dieses geld nicht ausgeben, wenn sie linux verwenden. da linux open source ist, können alle programmierer den code sehen. wenn etwas nicht gut ist, kann ich es aktualisieren von riesen. aber im zeitalter großer modelle trifft dies nicht zu. im zeitalter großer modelle wird oft darüber gesprochen, wie teuer gpus sind, und die rechenleistung ist ein schlüsselfaktor, der über erfolg oder misserfolg großer modelle entscheidet.bietet ihnen das open-source-modell rechenleistung? wenn es ihnen keine rechenleistung bietet, wie kann es dann die rechenleistung effizient nutzen? das open-source-modell kann dieses problem nicht lösen.

früher musste man beim kauf eines computers bereits für die rechenleistung bezahlen, bei großen modellinferenzen ist dies jedoch nicht der fall. diese inferenz ist tatsächlich sehr teuer. daher liegt der wert von open-source-großmodellen in der lehre und in der wissenschaftlichen forschung. wenn sie verstehen möchten, wie große modelle funktionieren, gibt es definitiv einen nachteil, wenn sie den quellcode nicht kennen wenn sie im geschäftsfeld nach effizienz streben, hat das open-source-modell keinen vorteil, wenn sie nach den niedrigsten kosten streben.

fragen:wie werden sich ki-anwendungen weiterentwickeln? warum die betonung auf intelligenz?

robin li: der entwicklungsprozess großer modelle muss diese phasen durchlaufen. am anfang müssen die leute unterstützt werden, und wenn etwas herauskommt, müssen die leute die letzte prüfung bestehenok, es wird nur rausgelassen, wenn es in allen aspekten gut ist. weiter unten gibt es die agentenintelligenz. das wichtigste ist, dass es einen bestimmten grad hat der autonomie, mit der fähigkeit, werkzeuge unabhängig zu nutzen, zu reflektieren, sich selbst weiterzuentwickeln usw.; wenn dieser grad der automatisierung weitergeht, wird er zu einem sogenannten al worker, der in der lage ist, eine vielzahl geistiger und körperlicher arbeiten zu erledigen ein mensch, und alle aspekte der arbeit können unabhängig erledigt werden. es muss einen solchen prozess geben.

das urteil, dass „intelligente agenten die wichtigste entwicklungsrichtung großer modelle sind“, ist eigentlich kein konsens. auf der baidu create-konferenz haben wir drei produkte veröffentlicht: agentbuilder, appbuilder und modelbuilder. bei agentbuilder und appbuilder geht es um agenten, eines hat einen niedrigeren schwellenwert und das andere hat leistungsfähigere funktionen. nachdem wir es erklärt hatten, begannen einige leute endlich zu verstehen, dass dieses ding tatsächlich interessant ist, einen mehrwert schaffen kann und mit einer relativ niedrigen schwelle hergestellt werden kann, sodass jeder es für nutzbar hält. seitdem hat die popularität intelligenter agenten allmählich zugenommen, und viele menschen sind hinsichtlich der entwicklungsrichtung intelligenter agenten optimistisch.bisher ist intelligenz jedoch kein konsens. es gibt nicht viele unternehmen wie baidu, die intelligenz als wichtigste strategie und wichtigste entwicklungsrichtung großer modelle betrachten.

warum legen wir so viel wert auf agenten? denn die schwelle für intelligente agenten ist tatsächlich sehr niedrig. letztes jahr haben wir gesagt, dass wir anwendungen einführen sollten und dass jeder anwendungen erstellen sollte. tatsächlich sagen viele leute immer noch, dass sie nicht wissen, wie sie es machen sollen, ob sie es schaffen in diese richtung und welche fähigkeiten muss ich einsetzen? es gibt unzählige unsicherheiten bei der wertgenerierung in diesem szenario, und nicht jeder weiß, wie er vom modell zur anwendung übergehen soll.aber der agent bietet eine sehr direkte, sehr effiziente und sehr einfache möglichkeit, einen agenten auf dem modell aufzubauen., weshalb jede woche zehntausende neuer agenten auf der wenxin-plattform erstellt werden.

bei den agenten haben wir den trend bereits erkannt und verfügen über relativ gute voraussetzungen. neben den starken fähigkeiten des modells selbst verfügen wir auch über gute vertriebskanäle. baidusapp, insbesondere baidu-suchemilliarden menschenbei der nutzung äußern benutzer aktiv ihre bedürfnisse, damit der intelligente agent seine fragen besser beantworten und seine bedürfnisse erfüllen kann. daher können wir diese entwickler am besten bei der intelligenten verteilung unterstützen.

bericht/feedback

nachricht

robin lis interne rede enthüllte: bei der erörterung dreier großer kognitiver missverständnisse über große modelle wird die kluft zwischen den modellen in zukunft größer werden

einführung

meine kontaktdaten