Nachricht

Doubao PC-Version „unboxed“, von der Sprachlautstärke bis zum Dialekt

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Am 22. August wurde in Shanghai die Volcano Engine AI Innovation Tour eröffnet. Die Veranstaltung demonstrierte die Verbesserung des Sitzsackmodells in Bezug auf umfassende Bewertung, Spracherkennung und andere Aspekte.Sprachfunktionen stehen im Mittelpunkt dieser Version.

Das große Modellteam konzentriert sich auf Konversations-KI-Echtzeitinteraktion und -Ausgabe Seed-ASR, dieser Erfolg ist möglicherweise mit dem neuen erweiterten Sprachmodus von ChatGPT vergleichbar, der am 31. Juli von OpenAI veröffentlicht wurde.

OpenAI-Mitarbeiter konnten den Chatbot unterbrechen und ihn bitten, die Geschichte auf eine andere Art und Weise zu erzählen, und der Chatbot nahm ihre Unterbrechungen gelassen hin und passte seine Antworten an, wie aus damals in den sozialen Medien veröffentlichten Videos hervorgeht.

Vereinfacht gesagt unterstützt es das „Denken und Sprechen“,Verfügen Sie über ein stärkeres Kontextbewusstsein und somit über ein besseres Denkvermögen und genauere Antwortergebnisse.

Das Auffällige ist dasSitzsackAnsprüche an seine SprachfähigkeitenUnterstützt eine ModellerkennungMandarinund Kantonesisch, Shanghainisch, Sichuan, Xi'an, Hokkien und andere chinesische Dialekte.

Deshalb bin ich gespannt darauf, in Hongkong und Sichuan mit ihnen zu sprechen.

Als nächstes werde ich es auf der Version 1.19.5_mac basierenDoubao AI PC-Version,prüfenKI-Textlesung und Screenshot-ErkennungSowie das kürzlich beliebteKI-Videoanzeige, KI-Dialekterkennungund andere funktionen,Sehen Sie, wie Sitzsäcke im Vergleich dazu aussehenVerschiedene große KI-Modelle in WebversionWelche neuen Dinge werden bereitgestellt.

Wie es die alte Regel ist, können ängstliche Freunde direkt nach unten zum Zusammenfassungslink scrollen.

KI-Begleiter zum Lesen von Texten

Das erste ist das begleitende Lesen von KI-Texten.

Ich öffnete eine Nachricht, scrollte nach unten zur Zusammenfassung, wählte den Absatz aus, den ich unterstützen wollte, und der Sitzsack erschien automatisch.Suchen, übersetzen, interpretieren, kopierenund andere Funktionen.

existierenEntdecken Sie weitere FähigkeitenDarunter befindet sich die AI-Symbolleiste zur Wortabgrenzung, die über 6 Funktionen wie Textabkürzung, Korrektur und Polieren, 3 Funktionen wie Social-Media-Copywriting oder Videoskripte und 4 Funktionen wie das Erstellen wöchentlicher Berichte, OKR und Code verfügt 6 Punkte einschließlich Zusammenfassung der Vor- und Nachteile, Extraktion von Aufgabenpunkten, Brainstorming usw. sowie solche, die schwer zu klassifizieren sind,Es gibt insgesamt 22 Modulfunktionen mit anpassbaren Top-Einstellungen.

Ich habe die einfachste Anfrage für die Doubao-Erklärung gewählt. Nachdem ich etwa 25 Sekunden gewartet hatte, erhielt ich den folgenden Inhalt.

Es ist ersichtlich, dass Doubao zunächst die allgemeine Idee zusammenfasst, gefolgt von einer eher umgangssprachlichen, populären Erklärung.Auffallend ist, dass es die Eigennamen des ausgewählten Textabsatzes aktiv identifiziert und erklärt, wie beispielsweise die „Pareto-Regel“ oben.

An dieser Stelle bleibt abzuwarten, ob die 22 vom Doubao-Modul bereitgestellten Funktionen ein tieferes Verständnis in Bezug auf Intelligenz und Personalisierung zeigen können.Aber klar ist, dass ich, wenn der PC im Hintergrund läuft, ihn nicht kopieren und in ein anderes Fenster einfügen muss, um zu suchen, oder sogar Eigennamen auswählen muss, um zu suchen oder Fragen separat zu stellen.

KI-Bilderkennung

Als ich mit Beanbao einen Screenshot machte, tauchte dieser aufFrage und Antwort, Übersetzung, QQ-SitzsackEs gibt drei Funktionselemente, also habe ich eine Matheaufgabe aus der Oberschule ausgewählt und Doubao gebeten, sie zu lösen und die Fragen zu beantworten.

Doubao bietet im Screenshot-Bereich nicht nur den Lösungsprozess und die Antwort auf eine Frage, sondern auch mehrere ähnliche Fragen und deren Lösungen.

Aber wenn ich Translate und Ask Doubao verwende, kann ich Sätze nicht nur nicht intelligent segmentieren, sondern mache auch häufig Fehler.

Angesichts der Schwierigkeit der Bilderkennung habe ich auf Absatztext umgestellt, aber es gab keine Verbesserung.

Ich habe es noch einmal versuchtFragen Sie nach Sitzsäcken, untergeordnetOrdnen Sie den Kerninhalt im Bild anUndText extrahierenIch habe die beiden Module separat ausprobiert.

Insgesamt ist die Leistung der Kernfunktion der Inhaltsorganisation ausgezeichnet.Aber die Textextraktion erkannte nicht einmal das vollständige Bild, und es handelte sich immer noch um eine ordentlich angeordnete Schriftart.

KI schaut sich Videos an

Die Funktion zum Ansehen von Videos mit KI ist derzeit auf Site-B-Videos beschränkt und erfordertIn der Doubao-Schnittstelle öffnenUnd melden Sie sich beim B-Station-Konto an.

Also habe ich zufällig den Inhalt der dritten Staffel und Folge 7 von „The Genre of Late Drinking“ ausgewählt und nach etwa 20 Sekunden Wartezeit den folgenden Inhalt erhalten.

Es ist ersichtlich, dass in der Zeitleiste der Videosegmente die Bild- und Textübereinstimmung der KI nicht genau ist, aberGrundsätzlich kann eine Inhaltssegmentierung erreicht werden.

Das Video ist auf Japanisch mit traditionellen chinesischen Untertiteln synchronisiert, was wahrscheinlich etwas peinlich ist.

Zu Beginn des Videos gibt es eine klare Zusammenfassung der Hauptidee, die sich jedoch in der Textzusammenfassung auf der rechten Seite nicht klar widerspiegelt. Darüber hinaus bedankte sich die Figur im Video im Abschnitt „Dankbarkeit gegenüber anderen“ bei Frau Ozo und nicht bei Herrn Ushida, was ein Fehler in der Zusammenfassung des Sitzsacks ist.

KI-Dialekterkennung

Laut der offiziellen Ankündigung unterstützt Doubao Kantonesisch, Shanghainisch, Sichuan, Xi'an und Hokkien. Als nächstes wollen wir sehen, ob Doubao mein gebrochenes Kantonesisch erkennen kann (es gibt keinen einheimischen Dialekt, nur das gebrochene Kantonesisch, das durch ein halbes Jahr entstanden ist). Ich lebe in Hongkong und freue mich darauf, weitere indigene Erfahrungen zu teilen.

Es gibt kein Problem mit der Spracherkennung. Doubao versteht „Ich möchte einen Brei-basierten Hot Pot essen“ und bietet sogar die Suchoption „Wo kann ich in Peking einen köstlichen Porridge-basierten Hot Pot essen?“, aber nachdem die Nachricht gesendet wurde, sprang sie zur Konversationsschnittstelle der KI-Suche und die Antwort an mich war Text statt Sprache.

Darüber hinaus ist die Dialekteingabe nur auf der Startseite verfügbar und ich kann auf der Konversationsoberfläche keine weiteren Dialekteingaben mehr vornehmen. Daher muss ich immer wieder zur Startseite zurückkehren und jedes Mal, wenn eine Nachricht gesendet wird, wird ein neues Navigationsseitenfenster geöffnet. . .

Allerdings ist die Möglichkeit, Dialekte einzugeben, immer noch ein großer Durchbruch und die Gesamtleistung ist unbefriedigend. Es versteht sich, dass die Doubao-App Sprachantworten unterstützt.

Ich habe versucht, die mobile App zu verwendenDialektausspracheDer gleiche Satz wurde eingegeben, Doubao endete mitMandarin-StimmeHat mir geantwortet und den ausgewählten Suchbegriff eingegeben: „Wo kann ich in Peking einen köstlichen Porridge-Hot Pot finden?“

Mit anderen Worten: Doubao unterstützt die Dialekteingabe, derzeit jedoch keine Dialektinteraktion.Diese Funktion wird hauptsächlich in unterhaltsamen und geschäftlichen Situationen verwendet, beispielsweise beim Organisieren von Besprechungsprotokollen für Teilnehmer in verschiedenen Sprachen.

Zusammenfassungssitzung

In meiner Vorstellung gibt es eine elektronische KI-Puppe auf dem Desktop, die mir wie meiner Katze einen emotionalen Wert verleiht und mir wirklich hilft, mit allem um mich herum umzugehen. Es ist so einfach aufzuwachen wie Siri, aber leistungsfähiger als Siri.

Das KI-Textlesen von Doubao ist anwendungsübergreifend auf der PC-Seite einsetzbar. Es bietet neben der grundlegenden Textaufbereitung auch einen szenariobasierten Anwendungsbereich hat die Grundfunktionen, die ich mir vorgestellt habe, aber es gibt auch viel Raum für Erkundung und Wachstum.

In Bezug auf die Bilderkennung ist es gut darin, Probleme zu lösen und Fragen zu beantworten, was den Hausaufgabengruppen und Affen auf der PC-Seite entspricht. Angesichts der PC-Benutzerbasis wird jedoch von Doubao erwartet, dass er sich intensiv in der fortgeschrittenen Mathematik+ engagiert. Schließlich sind die Antworten auf Fragen und Antworten für allgemeine Hausaufgaben und Prüfungsarbeiten auf Mobiltelefonen schneller. Erst bei elektronischen Versionen von Fragen oder Prüfungsarbeiten wird es eine Nachfrage nach PCs geben.

Die Segmentierungs- und Zusammenfassungsfunktionen von KI-Videos sind besonders für populärwissenschaftliche Videos sehr auffällig. Das Thema Geistes- und Sozialwissenschaften ist ein gemeinsames Problem aller großen Modelle.

Tatsächlich ist der KI-Dialekt das Feature, auf das ich mich am meisten freue.Denn „die lokale Aussprache bleibt unverändert und die Haare an den Schläfen verblassen.“ Manchmal ist meine Heimatstadt eine lange Liste von Menüs, und manchmal ist es das bekannte „dieser Geschmack“. Aber insgesamt hat Doubaos Dialekt-Interaktionsökologie noch einen weiten Weg vor sich.

Der Dialektdialekt identifiziert nicht nur die Heimatgefühle moderner Städter. Noch wichtiger ist, dass die Technologie den kalten Bildschirm durchdringt und sich um diejenigen kümmert, die kein universelles „Chinesisch“ sprechen, aber oft von der Geschichte vergessen werden. Sie brauchen auch KI und die Vorteile, die sie mit sich bringt .

Wenn Dialekte von der Erkennung zur Interaktion übergehen, geht Doubao möglicherweise noch einen Schritt weiter.