o1 plötzliche insider-enttarnung? google hat das prinzip bereits früher verraten. für große modelle allein gibt es keinen schutzwall.

2024-09-17

mingmin stammt aus dem aofei-tempel
qubits |. öffentliches konto qbitai

weniger als eine woche nach seiner veröffentlichung ist der burggraben von openais stärkstem modell o1 verschwunden.

jemand hat herausgefunden, dass ein im august von google deepmind veröffentlichter artikel das prinzip und die funktionsweise von o1 enthüllt.fast einstimmig。

diese studie zeigt, dass eine erhöhung der testzeitberechnungen effizienter ist als eine erweiterung der modellparameter.

basierend auf der im artikel vorgeschlagenen rechenoptimalen testzeitberechnungserweiterungsstrategie kann das kleinere basismodell eines bei einigen aufgaben übertreffen.14-mal größermodell.

netizens sagten:

dies ist fast das prinzip von o1.
wie wir alle wissen, ist ultraman google gerne voraus. hat o1 deshalb zuerst die vorschauversion veröffentlicht?

einige leute beklagten folgendes:

tatsächlich hat, wie google selbst sagte, niemand einen burggraben, und niemand wird jemals einen burggraben haben.

gerade hat openai die geschwindigkeit von o1-mini um das siebenfache erhöht und kann 50 artikel pro tag verwenden; o1-preview erwähnte 50 artikel pro woche.

sparen sie den 4-fachen rechenaufwand

der titel dieses google deepmind-artikels lautet:bei der optimierung von llm-tests ist die berechnung effizienter als die erweiterung der modellparameterskala。

das forschungsteam ging von menschlichen denkmustern aus, da menschen bei komplexen problemen länger zum nachdenken und zur verbesserung von entscheidungen brauchen. kann dies auch für llm gelten?

mit anderen worten: kann llm bei einer komplexen aufgabe die zusätzlichen berechnungen während des tests effektiver nutzen, um die genauigkeit zu verbessern?

einige frühere studien haben gezeigt, dass diese richtung zwar machbar ist, die wirkung jedoch relativ begrenzt ist.

diese studie wollte also herausfinden, wie stark die modellleistung verbessert werden kann, wenn relativ wenige zusätzliche inferenzberechnungen verwendet werden.

sie entwarfen eine reihe von experimenten, um den math-datensatz mit palm2-s* zu testen.

es werden hauptsächlich zwei methoden analysiert:

(1) iterative selbstrevision: lassen sie das modell mehrmals versuchen, eine frage zu beantworten, und überarbeiten sie es nach jedem versuch, um eine bessere antwort zu erhalten.
(2) suche: bei diesem ansatz generiert das modell mehrere kandidatenantworten.

es ist ersichtlich, dass bei verwendung der selbstrevisionsmethode mit zunehmendem rechenaufwand beim testen die lücke zwischen der standard-best-of-n-strategie (best-of-n) und der rechnerisch optimalen erweiterungsstrategie allmählich größer wird.

die verwendung der suchmethode zur berechnung der optimalen expansionsstrategie zeigt bereits im frühstadium offensichtliche vorteile. und unter bestimmten umständen kann es den gleichen effekt erzielen wie die beste n-strategie.der rechenaufwand beträgt nur 1/4 davon。

vergleich von palm 2-s* (unter verwendung der rechnerisch optimalen strategie) mit einem 14-mal größeren vorab trainierten modell (ohne zusätzliche inferenz) in einer passenden auswertung von flops, die mit der vorab trainierten berechnung vergleichbar ist.

es wurde festgestellt, dass bei verwendung der selbstrevisionsmethode der effekt der testzeitberechnungsstrategie besser ist als der des vortrainings, wenn die inferenztoken viel kleiner sind als die vortrainingstoken. aber wenn das verhältnis zunimmt oder bei schwierigeren problemen funktioniert das vortraining immer noch besser.

das heißt, in beiden fällen ist der schlüssel zur berechnung, ob die erweiterungsmethode gemäß verschiedenen tests gültig isthinweisschwierigkeit。

die studie verglich außerdem verschiedene prm-suchmethoden und die ergebnisse zeigten, dass die vorwärtssuche (ganz rechts) mehr berechnungen erfordert.

wenn der berechnungsaufwand gering ist, können durch die verwendung der optimalen berechnungsstrategie bis zu viermal ressourcen eingespart werden.

beim vergleich des o1-modells von openai kommt diese studie fast zum gleichen ergebnis.

das o1-modell lernt, seinen denkprozess zu verfeinern, verschiedene strategien auszuprobieren und seine fehler zu erkennen. und mit mehr verstärkendem lernen (berechnet während des trainings) und mehr denkzeit (berechnet während des testens) verbessert sich die leistung von o1 weiter.

allerdings hat openai das modell schneller veröffentlicht, während google palm2 verwendet und kein update für gemini2 veröffentlicht hat.

netizen: geht es beim burggraben nur um hardware?

solche neuen erkenntnisse erinnern die menschen unweigerlich an die ansichten, die letztes jahr in den internen dokumenten von google vertreten wurden:

wir haben keinen burggraben und openai auch nicht. das open-source-modell kann chatgpt schlagen.

heutzutage ist die forschungsgeschwindigkeit sehr hoch und niemand kann garantieren, dass sie immer die nase vorn haben.

der einzige graben kann hardware sein.

(also wird musk ein rechenzentrum bauen?)

manche sagen, dass nvidia nun direkt kontrolliert, wer mehr rechenleistung hat. was passiert also, wenn google/microsoft einen benutzerdefinierten chip entwickeln, der besser funktioniert?

erwähnenswert ist, dass der erste chip von openai vor einiger zeit veröffentlicht wurde, den fortschrittlichsten a16-angström-prozess von tsmc verwenden wird und speziell für sora-videoanwendungen entwickelt wurde.

offensichtlich reicht es bei großen modellschlachtfeldern nicht mehr aus, nur das modell selbst zu rollen.

referenzlinks:
https://www.reddit.com/r/singularity/comments/1fhx8ny/deepmind_understands_strawberry_there_is_no_moat/

nachricht

o1 plötzliche insider-enttarnung? google hat das prinzip bereits früher verraten. für große modelle allein gibt es keinen schutzwall.

sparen sie den 4-fachen rechenaufwand

netizen: geht es beim burggraben nur um hardware?

einführung

meine kontaktdaten