nachricht

wir machten einen videoanruf mit der ki und stellten fest, dass sie offenbar über alles sprechen konnte. . .

2024-08-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


ich glaube, einige von ihnen haben gpt-4o auf der openai-konferenz vor drei monaten gesehen. es war wie eine echte person.seidige videokonversationsfunktionen.

es gibt auch das von google gestartete project astra, das gpt-4o in puncto stärke in nichts nachsteht.


damals prahlte fast das gesamte internet damit, wie leistungsfähig sich die interaktiven fähigkeiten der ki entwickelt hatten, und es wurden begriffe wie „epic“ und „next level“ verwendet.

was ist passiert? die von gpt-4o versprochene videoanruffunktion wurde seit mehreren monaten immer wieder verzögert.jeder einzelne von ihnen ist von den schlechten rezensenten fast sauer. . .

ich habe jedoch festgestellt, dass es im ki-kreis anscheinend eine regel gibt, die besagt, dass man die leute nicht zu lange auf gute dinge warten lassen darf. sie sehen, sora ist seit mehr als einem halben jahr geheimnisvoll. infolgedessen sind keling, luma ai und zhipu qingying nacheinander aufgetaucht.

in den letzten zwei tagen trat zhipu auf der data-mining-konferenz kdd in barcelona vor der globalen akademischen gemeinschaft und der industrie auf.es wurde nicht nur das neueste große basismodell glm-4-plus veröffentlicht, sondern auch die videoanruffunktion von zhipu qingyan verbessert.


lassen sie mich die wichtigsten punkte für alle hervorheben.es ist derjenige in der legende, der sehen und chatten kannkidie videoanruffunktion ist jetzt direkt in der qingyan-app verfügbar. sie können die app zunächst herunterladen und eine testversion beantragen.

reden wir über nichts anderes, die geschwindigkeit von zhipu ist bereits besser als die von openai. . .

daher war herr bianbing der erste, der die videoanruffunktion von qingyan nutzte, sobald sie eingeführt wurde. öffnen sie die qingyan-app, klicken sie auf die anrufschaltfläche in der unteren rechten ecke, wechseln sie dann zum video und beginnen sie direkt mit der wiedergabe ~


freunde sollten auch wissen, dass einer der wichtigen gründe, warum gpt-4o so beliebt ist, darin besteht, dass es über eine sehr leistungsstarke fähigkeit verfügt, videos zu verstehen.

was das grundlegendste angeht: qingyans fähigkeit, videos zu verstehen, muss zuerst getestet werden, oder?

der rezensent warf qingyan einen blick in den konferenzraum, in dem unsere redaktion normalerweise ein brainstorming durchführt, um zu sehen, ob er anhand der umgebung erraten konnte, was ich tat. er schüttelte auch absichtlich die kamera, ohne das video völlig ruhig zu halten.

weißt du was, allein die aussage „wow, rate mal, was du tust“ hat es mir fast schwer gemacht. aber auch das sitzen am tisch im konferenzraum ist nicht verkehrt. auch die pappbecher auf dem tisch, die fernbedienung und der fernseher daneben sind recht treffend beschrieben.

als ich das objektiv auf den computer meines kollegen setzte, konnte ich tatsächlich sehen, dass es ein video schnitt.

sagen sie mir nicht, diese art der fähigkeit, die gesamte umgebung um sie herum wahrzunehmen, gab es bisher nur in der demo von openai und google. es fühlt sich wirklich so an, als wäre science-fiction wirklichkeit geworden.

darüber hinaus ist qingyan dasselbe wie von gpt-4o demonstriert.sie können das gespräch jederzeit unterbrechen.von zeit zu zeit verwendet er auch die modalwörter „autsch“ und „autsch“ und lacht, bevor er spricht, genau wie beim chatten mit einer echten person.

dann habe ich die spezifische objekterkennungsfunktion ausprobiert, um qingyans wissensreserven anzuzeigen.

ausgehend vom einfachsten arbeitsplatzscan fehlen im grunde keine großen gegenstände wie weiße tastaturen, schwarze mäuse und monitore. auch die richtungen vorne, hinten, links und rechts sind klar beschrieben, sogar die einsteckbaren kopfhörer bei den comicfiguren auf dem glas wurde kein detail ausgespart.

ich kann es nicht zu 100 % sagen, aber auf dieser tabellemindestens 80 %–90 %alles wurde von qingyan gesehen.

darüber hinaus hat qingyan noch eine weitere funktionkreiserkennungich umkreiste die große stereoanlage meines kollegen aus der ferne. sie kannte die marke, das modell und sogar ihren spezifischen zweck.

obwohl auf den lautsprechern worte zu sehen sind, sollte jeder die klarheit sehen können. mit bloßem auge ist es schwierig, sie zu erkennen. ich muss sagen, dass die klaren augen wirklich einfach zu bedienen sind. . .

darüber hinaus habe ich das auch gefundenqingyans erkennung von objekten geht über einfache kategorien hinaus.

wenn sie beispielsweise fragen, ob dieser gamecontroller von sony oder microsoft ist, kann dies anhand des formdesigns des controllers analysiert werden. dies ist die xbox von microsoft. anstatt ihnen einfach zu sagen, dass es sich um einen gamecontroller handelt, oder es einfach zu verwechseln und es nicht klar erklären zu können.

es gibt auch die details dieses alten feature-telefons, nokia, das spezifische modell ist n95 und das klassische modell von 2007.

später bat ich qingyan, das computersystem zu identifizieren, tonys alter anhand von tonys fotos zu erraten und die namen von personen anhand von promi-fotos zu erraten. . . sagen wir es so: seitdem ich qingyan nutze, möchte ich jetzt einen videoanruf eröffnen und nach allem fragen, was ich fange.

natürlich macht es spaß. es gibt tatsächlich viele formen von videoanrufen.praktische szenarien

nehmen wir als beispiel die tägliche suche unserer redaktion nach themen und materialien. die hotspots in der autoindustrie sind an diesen beiden tagen im grunde untrennbar mit der chengdu auto show verbunden. zu diesem zeitpunkt können sie qingyan nach der chengdu auto show fragen themen während des gesprächs inspirieren.

hauptsächlich habe ich auch festgestellt, dass qingyan dies getan hatspeicherfunktion, ich habe im letzten videoanruf mit ihm darüber gesprochen, und als ich es das nächste mal öffnete, kam es und fragte mich, welche new-energy-fahrzeuge auf der autoshow ich verfolgt habe.

es gibt auch nachhilfe bei den hausaufgaben, die für eltern am mühsamsten ist. früher basierte die ki-interaktion noch auf dem aufnehmen von bildern und dem hochladen von fragen. wenn sie jedoch durch videoanrufe ersetzt wird, ist sie dasselbe wie einzelgespräche. eine hausaufgabennachhilfe mit online-nachhilfelehrern.

ich habe versucht, qingyan zu bitten, einige matheaufgaben mit niedrigem schwierigkeitsgrad zu lösen.einige einfache algebra-aufgaben in der grundschule und der mittelschule können kaum gelöst werden.

ich weiß nicht, ob ihnen aufgefallen ist, dass qingyan ihnen beim lösen von problemen nicht den gesamten prozess auf einmal erklärt und ihnen auch nicht nur ein ergebnis liefert, sondern sie schritt für schritt anleitet und ihnen einen denkprozess ermöglicht.

neben mathematik habe ich auch chinesisch und englisch nacheinander ausprobiert. man kann nicht sagen, dass qingyan ein oberlehrer ist, aberfür die täglichen hausaufgaben, das auswendiglernen von wörtern und das auswendiglernen alter gedichte reicht es völlig aus.

wenn sie der meinung sind, dass diese szenen nicht ausreichen, lassen sie uns etwas mehr fantasie einsetzen.

ich habe zum ersten mal keine erfahrung mit dem kochen, die glühbirne in meinem zimmer ist kaputt und ich weiß nicht, wie man grüne pflanzen anbaut. . . wenn sie im leben auf ähnliche dinge stoßen und nicht wissen, was sie tun sollen, fragen sie doch qingyan.

viele kinder sind zum beispiel vorerst möglicherweise nicht in der lage, den plus- und minuspol der batterie zu unterscheiden, also haben wir so getan, als würden wir die batterie des rechners verkehrt herum einbauen und in wenigen worten herausgefunden, wo das problem lag, was zeigt, dass es so ist hat immer noch gesunden menschenverstand im leben.

wie auch immer, ich benutze qingyan heutzutage gerne, wenn ich nichts zu tun habe. darüber hinaus ist dieses gerät besonders leistungsfähigbieten sie emotionalen wert, lass es geschichten und witze erzählen und auf jeden satz antworten.

spielen sie blackjack mit freunden und es kann sogar als schiedsrichter fungieren.

ich frage mich, ob wir uns so weit entwickeln können, dass wir in zukunft mahjong spielen und die ki übernehmen können. ist das nicht interessanter als die ursprünglichen getippten und gesprochenen gespräche?

ehrlich gesagt hat mir dieses große upgrade von qingyan immer noch viele überraschungen gebracht, aber manchmal gibt es immer noch viele kleine mängeler kann unsinn reden, dinge falsch identifizieren und unsinn von sich geben.


als ich zum beispiel blackjack-schiedsrichter war, habe ich einmal gesagt, dass eine 9 eine 4 und ein pik ein kreuz sei. . .

allein dadurch, dass ki-videoanrufe in china vor openai und google verfügbar gemacht werden,wir müssen auch zhipu einen daumen hoch geben.

dieses mal wird die erste reihe von videoanruffunktionen nur einigen benutzern zur verfügung stehen. zhipu wird den umfang schrittweise erweitern, damit alle mitarbeiter sie so schnell wie möglich nutzen können. wenn ihr wirklich gierig seid,sie können die qingyan-app herunterladen oder sich am pc anmelden (chatglm.cn), um sich für interne tests auf der website zu bewerben.

darüber hinaus gibt es möglicherweise viele freunde, die zhipu nicht kennen. sagen wir es so: man kann auch sagen, dass dieses unternehmen das beste im ki-kreis ist.beliebtes brathähnchen.


besonders in diesem jahr sind ihre aktionen bei großen modellen äußerst heftig. von der verrückten iteration grundlegender großer modelle bis hin zur häufigen implementierung großer modellanwendungen haben zhipus aktionen nie aufgehört.

bei diesem kdd hat ihr neues großmodell glm-4-plus große verbesserungen beim sprachverständnis und langtext erzielt.


darüber hinaus besteht zhipu darauf, modelle als open-source-modelle bereitzustellen. daten zeigen, dass die kumulierten downloads der open-source-modelle von zhipu zugenommen habenüber 20 millionen.

wie auch immer, zhipu übernimmt dieses mal die führung und sorgt für eine solche „aufregung“. es wird geschätzt, dass die ki-kreise im in- und ausland bald eine welle verrückter neuer produkte einleiten wird.


für uns nutzer ist das natürlich eine gute sache. gerade bei ki-videoanrufen, einer neuen form der interaktion, gilt: je weiter man geht, desto größer wird der spielraum für fantasie bei anwendungsszenarien.

wenn ki beispielsweise auf brillen oder halsketten installiert ist, benötigen sie möglicherweise in zukunft nicht einmal ein mobiltelefon, sie kann auf der krücke einer blinden person installiert werden, um ihnen den weg zu weisen, oder sie kann mit verkörperter intelligenz kombiniert werden, um dies zu ermöglichen der roboter muss wirklich verstehen, was er sieht.

um die worte von zhipu-ceo zhang peng auszuleihen:„zumindest haben wir es noch nicht gesehen (ki) technologiedecke“.

sie könnten genauso gut darüber nachdenken, wie weit sich die ki in zukunft weiterentwickeln wird und welchen wert sie schaffen wird.

schreiben sie einen artikel: xixi

bearbeiten:jiangjiang

kunstredakteur:huanyan

bilder, quellen

klare worte der weisheit

teil des bildquellennetzwerks