notizia

Doubao versione PC "unboxed", dal volume della voce al dialetto

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Il 22 agosto si è aperto a Shanghai il Volcano Engine AI Innovation Tour. L'evento ha dimostrato il miglioramento del modello a sacco in termini di punteggio completo, riconoscimento vocale e altri aspetti.Le funzionalità vocali sono al centro di questa versione.

Il team del modello di grandi dimensioni si concentra sull'interazione e sull'output dell'intelligenza artificiale conversazionale in tempo reale Seed-ASR, questo risultato potrebbe essere paragonabile alla nuova modalità vocale avanzata di ChatGPT rilasciata da OpenAI il 31 luglio.

I dipendenti di OpenAI sono stati in grado di interrompere il chatbot e chiedergli di raccontare la storia in un modo diverso, e il chatbot ha preso con calma le loro interruzioni e ha adattato le sue risposte, secondo i video pubblicati all'epoca sui social media.

Per dirla semplicemente, supporta “pensare e parlare allo stesso tempo”,Avere una maggiore consapevolezza del contesto, quindi avere una migliore capacità di ragionamento e risultati di risposta più accurati.

Ciò che colpisce è questosacco di fagioliAffermazioni sulle sue capacità linguisticheSupporta il riconoscimento del modellomandarinoe cantonese, Shanghainese, Sichuan, Xi'an, Hokkien e altri dialetti cinesi.

Questo mi rende ansioso di parlarne a Hong Kong e nel Sichuan.

Successivamente lo baserò sulla versione 1.19.5_macDoubao AI versione per PC,testLettura del testo AI e riconoscimento degli screenshotCosì come quello recentemente popolareVisualizzazione video AI, riconoscimento dialetto AIe altre funzioni,Guarda come si confrontano i poufVarie versioni web AI modelli di grandi dimensioniQuali novità vengono fornite.

Come è la vecchia regola, gli amici ansiosi possono scorrere direttamente fino alla sezione di riepilogo.

Compagno di lettura del testo AI

Il primo è la lettura complementare del testo AI.

Ho aperto una notizia, ho fatto scorrere la sezione di riepilogo, ho selezionato il paragrafo a cui volevo assistere e il pouf è apparso automaticamente.Cerca, traduci, interpreta, copiae altre funzioni.

esistereScopri più competenzeTra questi, c'è la barra degli strumenti di delineazione delle parole AI, che ha 6 funzioni come abbreviazione, correzione e perfezionamento del testo, 3 funzioni come copywriting per social media o script video e 4 funzioni come generazione di report settimanali, OKR e codice correzione degli errori. 6 elementi tra cui riepilogo di vantaggi e svantaggi, estrazione di elementi di attività, brainstorming, ecc., più quelli difficili da classificare,Sono disponibili un totale di 22 funzioni del modulo con impostazioni superiori personalizzabili.

Ho scelto la richiesta più elementare per la spiegazione di Doubao. Dopo aver atteso circa 25 secondi, ho ottenuto il seguente contenuto.

Si può vedere che Doubao riassume prima l'idea generale, seguita da una spiegazione popolare più colloquiale.Ciò che colpisce è che identifica e spiega attivamente i nomi propri del paragrafo di testo selezionato, come la “Regola di Pareto” di cui sopra.

A questo punto resta da vedere se le 22 funzioni previste dal modulo Doubao potranno mostrare una comprensione più profonda in termini di intelligenza e personalizzazione.Ma ciò che è chiaro è che quando il PC è in esecuzione in background, non ho bisogno di copiarlo e incollarlo in un'altra finestra per effettuare la ricerca, né di scegliere nomi propri da cercare o porre domande separatamente.

Riconoscimento delle immagini tramite intelligenza artificiale

Quando ho fatto uno screenshot usando Beanbao, è apparsoDomanda e risposta, traduzione, pouf QQCi sono 3 elementi funzionali, quindi ho scelto un problema di matematica del liceo e ho chiesto a Doubao di risolverlo e di rispondere alle domande.

Doubao non solo fornisce il processo di soluzione e la risposta a una domanda nell'area dello screenshot, ma fornisce anche diverse domande simili e le relative soluzioni.

Ma quando utilizzo Translate e Ask Doubao, non solo non riesco a segmentare le frasi in modo intelligente, ma commetto anche errori frequenti.

Considerando la difficoltà di riconoscimento delle immagini, sono passato al testo in paragrafi, ma non ci sono stati miglioramenti.

Ho riprovatoChiedi informazioni sui sacchi di fagioli, subordinato aOrganizza il contenuto principale nell'immagineEEstrai testoHo provato i due moduli separatamente.

Nel complesso, le prestazioni della funzione principale di organizzazione dei contenuti sono eccellenti.Ma l'estrazione del testo non ha riconosciuto nemmeno l'immagine completa, e questo era ancora un carattere tipografico ben organizzato.

L'intelligenza artificiale guarda i video

La funzione di guardare video con l'intelligenza artificiale è attualmente limitata ai video del sito b e richiedeApri nell'interfaccia DoubaoE accedi all'account della stazione B.

Quindi ho selezionato a caso il contenuto della terza stagione e dell'episodio 7 di "The Genre of Late Drinking" e, dopo aver atteso per circa 20 secondi, ho ottenuto il seguente contenuto.

Si può vedere che nella sequenza temporale dei segmenti video, la corrispondenza di immagini e testo dell'IA non è accurata, maFondamentalmente è possibile ottenere la segmentazione dei contenuti.

Il video è doppiato in giapponese con i tradizionali sottotitoli in cinese, il che probabilmente è un po' imbarazzante.

C'è un chiaro riassunto dell'idea principale all'inizio del video, ma non si riflette chiaramente nel riassunto del testo a destra. Inoltre, nella sezione "Gratitudine verso gli altri", il personaggio nel video ha ringraziato la signora Ozo invece del signor Ushida, il che è un errore nel riassunto del pouf.

Riconoscimento dialettale dell'IA

Secondo l'annuncio ufficiale, Doubao supporta cantonese, Shanghainese, Sichuan, Xi'an e Hokkien. Successivamente, vediamo se Doubao riesce a riconoscere il mio cantonese stentato (non esiste un dialetto nativo, solo il cantonese stentato causato da sei mesi di esperienza). vivere a Hong Kong), non vedo l'ora di condividere altre esperienze indigene~).

Non ci sono problemi con il riconoscimento della lingua. Doubao capisce "Voglio mangiare un piatto caldo a base di porridge" e fornisce anche un'opzione di ricerca "Dove posso trovare un piatto caldo a base di porridge delizioso a Pechino?", ma dopo che il messaggio è stato inviato, è passato all'interfaccia di conversazione della ricerca AI e la risposta per me era di testo anziché vocale.

Inoltre, l'inserimento in dialetto è disponibile solo sulla home page e non posso continuare a inserire in dialetto nell'interfaccia di conversazione. Pertanto, devo tornare ancora e ancora alla home page e ogni volta che viene inviato un messaggio si aprirà una nuova finestra della pagina di navigazione. . .

Tuttavia, la possibilità di inserire i dialetti è ancora un grande passo avanti e le prestazioni complessive sono insoddisfacenti. Resta inteso che l'app Doubao supporta le risposte vocali.

Ho provato a utilizzare l'app mobilepronuncia dialettaleÈ stata inserita la stessa frase, con cui termina DoubaoVoce mandarinaMi ha risposto fornendo il termine di ricerca selezionato "Dove posso trovare un delizioso piatto caldo di porridge a Pechino?"

In altre parole, Doubao supporta l'input dialettale, ma attualmente non supporta l'interazione dialettale.Questa funzione viene utilizzata principalmente in situazioni divertenti e aziendali, come l'organizzazione di verbali di riunioni per partecipanti in diverse lingue.

Sessione di riepilogo

Nella mia immaginazione, c'è una bambola elettronica AI sul desktop, che mi fornisce valore emotivo come il mio gatto e mi aiuta veramente a gestire tutto ciò che mi riguarda. Svegliarsi è facile come Siri, ma più potente di Siri.

La lettura del testo AI di Doubao può essere utilizzata in tutte le applicazioni sul lato PC, fornendo 22 funzioni del modulo Oltre alla lucidatura del testo di base, ha anche un ambito di applicazione basato su scenari per animali sociali, programmatori e operatori self-media le funzioni di base che ho immaginato, ma c'è anche molto spazio per l'esplorazione e la crescita.

In termini di riconoscimento delle immagini, è bravo a risolvere problemi e rispondere a domande, il che equivale alle bande di compiti e alle scimmie sul lato PC. Tuttavia, considerando la base di utenti di PC, si prevede che Doubao compirà sforzi approfonditi nella matematica avanzata+. Dopotutto, le risposte alle domande e alle risposte ai compiti più comuni e alle prove d'esame sono più veloci sui telefoni cellulari. Solo con le versioni elettroniche delle domande o delle prove ci sarà domanda per i PC.

Le funzioni di segmentazione e riepilogo dei video AI sono molto accattivanti, soprattutto per i video scientifici popolari. Doubao ha un grande potenziale. Il tema delle scienze umane e sociali è un problema comune a tutti i principali modelli.

In effetti, il dialetto dell'intelligenza artificiale è la funzionalità che aspetto con più ansia,Dopotutto, "la pronuncia locale rimane invariata, e i peli sulle tempie svaniscono". A volte la mia città natale è una lunga lista di menu, a volte è il familiare "che sapore". Ma nel complesso, l’ecologia interattiva del dialetto di Doubao ha ancora molta strada da fare.

Il dialogo dialettale identifica non solo i sentimenti della città natale degli abitanti delle città moderne. Ancora più importante, la tecnologia penetra nello schermo freddo e si prende cura di coloro che non sanno parlare il "cinese" universale. Scrivono la storia silenziosa con le loro vite, ma sono spesso dimenticati dalla storia. Hanno anche bisogno dell'intelligenza artificiale e delle cose che ne derivano .

Quando i dialetti passano dal riconoscimento all’interazione, Doubao può anche andare oltre.