nachricht

robin li entlarvt die illusion der „laufenden punktzahl“ großer modelle: die liste repräsentiert nicht alle stärken und die kluft zwischen den modellen wird in zukunft größer werden

2024-09-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

immer wenn eine neue version eines großen modells veröffentlicht wird, ist die branche immer daran interessiert, listendaten von drittanbietern zu zitieren, mit ihrem eigenen großen modell und gpt-4 „einen score zu erstellen“ und zu behaupten, dass es bestimmte indikatoren übertroffen hat beweisen ihre technische stärke in großen modellen.
doch in einem kürzlichen austausch zwischen baidu-vorsitzendem robin li und internen mitarbeitern durchbrach er das „fensterpapier“, das benchmarking in der großen modellbranche behindert. „jedes mal, wenn ein neues modell auf den markt kommt, muss es mit gpt-4o verglichen werden. es wird gesagt, dass meine punktzahl fast mit diesem übereinstimmt und sie in einigen einzelnen punkten sogar übertrifft, aber das bedeutet nicht, dass es keine lücke gibt.“ mit den fortschrittlichsten modellen.
er erklärte weiter, dass die lücken zwischen den modellen mehrdimensional seien. eine dimension ist der fähigkeitsaspekt, sei es die lücke in den grundfähigkeiten wie verständnisfähigkeit, generierungsfähigkeit, logisches denken oder gedächtnisfähigkeit. die andere dimension ist der kostenaspekt. obwohl einige modelle den gleichen effekt erzielen können, sind es die kosten hoch und die denkgeschwindigkeit ist langsam, tatsächlich ist es fortgeschrittenen modellen immer noch unterlegen.
„es gibt auch eine überanpassung des testsatzes. jedes modell, das seine fähigkeiten unter beweis stellen möchte, wird in die rangliste aufgenommen. bei der rangliste muss er erraten, was andere testen und welche techniken ich verwenden kann, um es zu bekommen.“ richtig, der liste oder dem testsatz nach zu urteilen, denken sie, dass die fähigkeiten sehr nahe beieinander liegen, aber es gibt immer noch eine deutliche lücke bei den tatsächlichen anwendungen“, sagte robin li.
ein großer modellpraktiker sagte reportern, dass sich die von robin li erwähnte überanpassung (überanpassung) des testsatzes hauptsächlich auf die tatsache bezieht, dass das modell während des modelltrainingsprozesses die trainingsdaten zu sorgfältig lernt, sodass das modell dies tut bei den trainingsdaten ist die leistung nicht gut, bei den nicht sichtbaren testdaten ist die leistung jedoch schlecht. dies bedeutet normalerweise, dass das modell so komplex ist, dass es sich an das rauschen und die details in den trainingsdaten „merken“ kann. diese details und das rauschen sind jedoch nicht allgemein und daher lässt sich das modell nicht gut auf weitere neue daten verallgemeinern.
die oben genannten personen glauben, dass es tatsächlich einschränkungen beim ranking und beim laufscore gibt. aufgrund der offenheit des bewertungsdatensatzes kann das modell beispielsweise gezielt trainiert werden, um das ranking zu verbessern, was zu dem phänomen führt, dass „ es ist jedoch nicht völlig bedeutungslos. das ranking ist immer noch relativ. es bietet einen quantitativen bewertungsstandard, der den menschen hilft, die leistung verschiedener großer modelle schnell zu verstehen, und fordert jeden dazu auf, das technische niveau großer modelle durch wettbewerb kontinuierlich zu optimieren. und spielt auch eine gewisse rolle in der öffentlichkeitsarbeit und verkaufsförderung.
robin li meint: „ein teil des self-media-hypes, gepaart mit der motivation, werbung zu machen, wenn jedes neue modell auf den markt kommt, erweckt bei jedem den eindruck, dass der unterschied in den fähigkeiten zwischen den modellen relativ gering ist. tatsächlich ist das nicht der fall.“ „robin li sagte, dass baidu es technischem personal nicht erlaubt, rankings zu erstellen. die tatsächliche messung der fähigkeiten großer modelle sollte in bestimmten anwendungsszenarien erfolgen, um zu sehen, ob sie benutzeranforderungen erfüllen und wertsteigerungen generieren können.
was die „12 monate im voraus oder 18 monate im rückstand“, die in der großen modellbranche oft genannt werden, angeht, hält er das für nicht so wichtig. da sich jedes unternehmen in einem vollständig wettbewerbsorientierten marktumfeld befindet, gibt es viele konkurrenten, egal in welche richtung es geht. „wenn sie immer garantieren können, dass sie ihren mitbewerbern 12 bis 18 monate voraus sind, werden sie unbesiegbar sein. denken sie nicht, dass 12 bis 18 monate eine kurze zeitspanne sind. auch wenn sie garantieren können, dass sie es immer sein werden.“ wenn sie ihren mitbewerbern sechs monate voraus sind, werden sie möglicherweise 70 % marktanteil haben, während ihr gegner vielleicht nur 20 % oder sogar 10 % hat.
er schätzte, dass die kluft zwischen großen modellen in zukunft möglicherweise größer werden könnte. da die obergrenze großer modelle sehr hoch ist, ist sie noch weit von der idealsituation entfernt. daher muss das modell kontinuierlich iteriert, aktualisiert und aktualisiert werden, sodass über mehrere jahre oder mehr als zehn jahre hinweg kontinuierlich investiert werden kann um die bedürfnisse der benutzer kontinuierlich zu erfüllen, kosten zu senken und die effizienz zu steigern.
neben der diskussion darüber, ob es bei großen modellen wettbewerbshindernisse gibt, erwähnte robin li während des austauschs auch, dass es eine ganze reihe von missverständnissen über große modelle gebe, darunter themen wie die effizienz von open-source- und closed-source-modellen sowie ki agent.
robin li ist ein überzeugter befürworter großer closed-source-modelle: „vor der ära der großen modelle war jeder daran gewöhnt, dass open source kostenlos und kostengünstig ist, weil es computer bereits gibt.“ es wird linux verwendet. es ist kostenlos. im zeitalter großer modelle ist dies jedoch nicht der fall, und open-source-modelle stellen keine rechenleistung bereit. sie müssen ihre eigene ausrüstung kaufen, wodurch die rechenleistung nicht effizient genutzt werden kann.
„das open-source-modell ist im hinblick auf die effizienz nicht effizient.“ er sagte: „um genau zu sein, sollte das closed-source-modell als geschäftsmodell bezeichnet werden. es ermöglicht unzähligen benutzern, die forschungs- und entwicklungskosten sowie die dafür verwendeten maschinenressourcen und gpus zu teilen.“ begründung: die gpu-nutzungseffizienz ist bei den xinda-modellen 3.5 und 4.0 am höchsten.
robin li analysierte, dass das open-source-modell in bereichen wie lehre und wissenschaftlicher forschung wertvoll ist, im kommerziellen bereich jedoch, wenn es um effizienz, effektivität und niedrigste kosten geht, hat das open-source-modell keine vorteile.
er äußerte auch seine ansichten zur anwendungsentwicklung großer modelle. das erste ist copilot, das menschen unterstützt, die über ein gewisses maß an autonomie verfügen und tools unabhängig nutzen, reflektieren und sich selbst weiterentwickeln können. wenn sich dieser grad der automatisierung weiterentwickelt, wird daraus ein ki-arbeiter, der alle aspekte der arbeit selbstständig erledigen kann.
derzeit haben intelligente agenten immer mehr aufmerksamkeit von großen modellunternehmen und kunden auf sich gezogen. robin li ist der ansicht, dass intelligente agenten, obwohl viele menschen dieser entwicklungsrichtung optimistisch gegenüberstehen, derzeit kein konsens sind.
„die schwelle für intelligente agenten ist in der tat sehr niedrig.“ er sagte, dass viele menschen nicht wissen, wie man große modelle in anwendungen umwandelt, aber intelligente agenten sind eine sehr direkte, effiziente und einfache möglichkeit, intelligente agenten zu erstellen agenten an der spitze der models.
(dieser artikel stammt von china business news)
bericht/feedback