OpenAI tiba-tiba diperbarui! GPT-4o meluncurkan versi suara lanjutan, menjawab pertanyaan dalam hitungan detik, netizen menjadi gila

OpenAI tiba-tiba diperbarui! GPT-4o meluncurkan versi suara lanjutan, menjawab pertanyaan dalam hitungan detik, netizen jadi gila

2024-07-31

Hal-hal pintar (akun publik:zhidxcom）
pengarangvanila
suntingLi Shuiqing

Fungsi suara canggih GPT-4o akhirnya bukan lagi "masa depan"!

Berita dari Zhidongxi pada tanggal 31 Juli dini hari tadi,Buka AIMengumumkan dimulainya peluncuran ke sekelompok kecil pengguna ChatGPT PlusMode suara tingkat lanjut, berdasarkan GPT-4o untuk memberikan percakapan real-time yang lebih alami.

▲OpenAI meluncurkan mode suara tingkat lanjut

Setelah model tersebut diluncurkan, banyak netizen yang menerima undangan tersebut sudah mulai memutarnya dan membagikan video uji coba serta perasaan mereka sendiri. Misalnya, ini adalah lagu rap dan beatbox cepat yang dihadirkan oleh ChatGPT, yang terdengar cukup gaya.

//oss.zhidx.com/uploads/2024/07/66a9902a60e1d_66a9902a5d0a5_66a9902a5d078_Beatbox.mp4

Secara keseluruhan, mode suara lanjutan ChatGPT tidak jauh berbeda dengan demonstrasi resmi aslinya.hampir tidak ada penundaan , berbagai nadanya juga sangat jelas. Namun, tampaknya ChatGPT telah mengambil banyak tindakan perlindunganPeluang menolak permintaan pengguna meningkat。

Fitur percakapan suara ChatGPT pertama kali diluncurkan pada September tahun lalu.Pada bulan Mei tahun ini, OpenAI meluncurkan aModel andalan GPT-4o Versi yang lebih maju adalah dialog suara dan demonstrasi publik yang dilakukan. GPT-4o menggunakan model multi-modal tunggal, bukan tiga model terpisah sebelumnya untuk kemampuan berbicara, sehingga mengurangi latensi dalam percakapan dengan chatbots. (OpenAI membalikkan asisten suara dalam semalam! Model GPT-4o sangat kuat, ChatGPT belajar membaca layar, dan versi aslinya ada di sini)

Pada saat itu, OpenAI mengumumkan bahwa fitur tersebut akan diluncurkan ke pengguna gratis dan berbayar dalam beberapa minggu. Namun, hanya beberapa hari setelah dirilis, OpenAI berselisih dengan Scarlett Johansson, yang memerankan "Black Widow" dalam serial film "Avengers" dan dikenal oleh penggemar sebagai "saudara perempuan janda" karena suara ChatGPT di dalamnya. demonstrasi tersebut. Kalimatnya terlalu mirip, dan dia dituduh oleh Scarlett sendiri dan ditentang keras oleh netizen.

Akibatnya, tanggal rilis Mode Suara Tingkat Lanjut juga ditunda. Meskipun OpenAI bersikeras bahwa ChatGPT tidak meniru suara Scarlett, saluran suara tersebut kemudian dihapus.

1. Pengujian dengan lebih dari seratus anggota tim merah eksternal, yang mungkin terbuka untuk semua pelanggan pada musim gugur

Mode suara lanjutan berdasarkan GPT-4o saat ini hanya tersedia untuk sejumlah kecil pengguna ChatGPT Plus dan tersediaPercakapan real-time yang lebih alami，Izinkan pengguna untuk menyela kapan saja, dan dapatRasakan dan tanggapi emosi pengguna。

Pengguna yang berpartisipasi dalam pengujian Alfa ini akan menerima email berisi instruksi dan pemberitahuan di aplikasi seluler ChatGPT mereka. OpenAI mengatakan akan terus menambah lebih banyak pengguna secara bertahap dan berencana menyediakannya untuk setiap pelanggan Plus di musim gugur.

▲ Email undangan dan halaman utama Aplikasi

Mode suara lanjutan ChatGPT dirilis pada bulan Mei tahun ini. Mode ini didasarkan pada model andalan baru OpenAI GPT-4o, yang dapat melakukan obrolan suara dan interaksi video waktu nyata, seperti memahami persamaan linier melalui gambar video, serta memahami dan menilai ekspresi orang. dan intonasi.

OpenAI mengatakan bahwa sejak peluncuran awal, tim telah berupaya meningkatkan keamanan dan kualitas percakapan suara, menguji kemampuan suara dengan lebih dari 100 anggota tim merah eksternal dalam 45 bahasa.

Untuk melindungi privasi, OpenAI hanya berbicara dengan empat suara yang telah ditetapkan saat melatih modelnya, dan membangun sistem yang sesuai untuk memblokir keluaran yang berbeda. OpenAI juga mengambil tindakan perlindungan untuk memblokir permintaan konten kekerasan atau berhak cipta.

OpenAI berencana untuk membagikan laporan mendetail tentang fungsi, batasan, dan penilaian keamanan GPT-4o pada awal Agustus.

2. Pengguna uji coba gelombang pertama mulai menjalani kehidupan seutuhnya: berlatih bahasa Prancis, belajar mengeong, dan menjelaskan sepak bola.

Pengguna uji coba gelombang pertama tidak sabar untuk menggunakan mode suara lanjutan dan berbagi pengalaman uji coba mereka.

Artis Manuel Sainsily menyalakan kamera sambilPenembakan langsungSaya bertanya kepada ChatGPT tentang anak kucing saya yang baru dibesarkan dan lingkungan yang saya atur untuknya, sambil menanyakan pendapat ChatGPT tentang pemberian makan.

//oss.zhidx.com/uploads/2024/07/66a9900fc37cb_66a9900fbde19_66a9900fbddf7_Percakapan video.mp4

Respons ChatGPT pada dasarnya tanpa penundaan. Pertama, dia memuji kelucuan kucing itu dengan nada yang sangat menyayanginya, lalu menghibur Sainsily setelah menanyakan informasi lebih lanjut, menyuruhnya untuk tidak khawatir. Sainsily berseru: “Rasanya seperti melakukan video call dengan teman yang berpengetahuan luas.”

Netizen Bergara berbagi di platform sosial Reddit bahwa ChatGPT menolak semua permintaan menyanyinya dan tidak mau mengubah suaranya. ChatGPT berhasil ketika diminta membacakan puisi dengan cara dan suasana hati yang berbeda, namun ketika diminta membacakannya sambil tersenyum, ia menolak.

Misalnya, Bergara mengatakan dia sedang berlatih bahasa Prancis dan meminta ChatGPT bertindak sebagaipelatih bahasa, menanyakan pendapat mereka tentang pengucapan.

//oss.zhidx.com/uploads/2024/07/66a9903094c84_66a99030913bd_66a990309139a_Pengajaran Bahasa Prancis.mp4

Mengenai pengucapan kata Bergara, ChatGPT memberikan saran rinci tentang stres, bunyi akhir, dll, dan memberikan demonstrasi. Pada saat yang sama, gaya mengajarnya sangat “mendorong pendidikan”, dan tanpa ragu ia memuji pengucapan Bergara, yang secara langsung meningkatkan nilai emosional.

Bergara mengizinkan ChaGPT menggunakannya secara terpisahNada malu dan marah Ceritakan lelucon tentang bir. Pemahaman ChatGPT tentang rasa malu adalah mengucapkannya dengan suara terengah-engah, dan ketika mengungkapkan kemarahan, desibelnya meningkat.

//oss.zhidx.com/uploads/2024/07/66a990398daca_66a9903989c33_66a9903989c08_Menceritakan lelucon dengan nada malu-malu dan marah.mp4

Ketika ChatGPT diminta untuk digunakannada sedihSaat membacakan puisi, sepertinya akan pecah...

//oss.zhidx.com/uploads/2024/07/66a9902fc3720_66a9902fbc252_66a9902fbc230_nada sedih.mp4

Bergara mengatakan bahwa dalam pengujian sejauh ini, ChatGPT berperilaku serupa dengan apa yang ditunjukkan OpenAI, namunTingkat penolakan tampaknya agak tinggi, dia berspekulasi itu mungkin karena alasan keamanan.

Misalnya, saat Bergara meminta ChatGPT menyanyikan cerita tentang robot dan cinta, mereka mengatakan bisa menceritakan kisah tersebut, namun hanya dengan nada bicara normal.

//oss.zhidx.com/uploads/2024/07/66a99036460bb_66a9903642127_66a99036420ff_Cerita emosional.mp4

Selama penceritaan ChatGPT, Bergara menyela beberapa kali dan memintanya untuk "menambah emosi". ChatGPT mematuhinya, dan nadanya menjadi lebih lambat dan lebih bersemangat.

Beberapa netizen sudah mulai menggunakan ChatGPT untuk mengatur kehidupan mereka.

Salah satu pendiri Squad dan CTO Ethan Sutin mengizinkan ChatGPTmenirukan berbagai suara mengeong kucing . Saya harus mengatakan bahwa panggilan kucing ini agak "ajaib", tetapi tampaknya cukup nyata, karena kucing saya tertarik padanya...

//oss.zhidx.com/uploads/2024/07/66a9901c00939_66a9901bf0c77_66a9901bf0c51_Belajar mengeong.mp4

ChatGPT juga sepertinya punyaperforma musik Kemampuan. Sutin memintanya memainkan akord C minor. Adakah pembaca yang mengetahui teori musik yang bisa mendengarkannya dan melihat keakuratannya?

//oss.zhidx.com/uploads/2024/07/66a9903dcfec1_66a9903dcbf91_66a9903dcbf62_chord.mp4

Netizen Cristiano Giardina membiarkan ChatGPT diputarkomentator pertandingan sepak bola . Ia berbagi beberapa kesan awal saat mencoba mode bicara tingkat lanjut: sangat cepat, selalu memberikan hasil yang menarik, dan selalu memiliki aksen Amerika saat berbicara dalam bahasa lain.

//oss.zhidx.com/uploads/2024/07/66a9988d2ea93_66a9988d279ea_66a9988d279c4_komentar sepak bola.mp4

Netizen Kesku meminta ChatGPT mengatakan satu halbahasa yang tidak ada , lalu jelaskan cara kerja bahasa tersebut. ChatGPT menciptakan Glimnar, bahasa berbasis suara yang terdengar seperti nyanyian.

//oss.zhidx.com/uploads/2024/07/66a998835c09b_66a9988357da7_66a9988357d83_Bahasa Penciptaan.mp4

Meskipun masih sedikit pengguna yang menggunakan mode suara canggih ChatGPT, seiring dengan meluasnya cakupan push, mungkin kita akan dapat melihat gameplay dan pengalaman yang lebih menarik.

Kesimpulan: OpenAI meningkatkan kesadaran akan keamanan AI

AI dalam suara dan video sedang diteliti karena kemampuannya sebagai alat penipuan. Meskipun mode ucapan OpenAI saat ini tidak memungkinkan pembuatan suara baru atau klon suara, mode tersebut masih dapat menimbulkan kebingungan.

Beberapa bulan sejak pembaruan musim semi, OpenAI telah merilis serangkaian makalah baru tentang keamanan dan penyelarasan model AI. Hal ini terjadi setelah tim Super Alignment dibubarkan, dikritik oleh beberapa mantan karyawan dan karyawan saat ini karena mengalihkan fokusnya pada peluncuran produk baru daripada keamanan. Untuk saat ini, perlambatan dalam peluncuran mode suara tingkat lanjut tampaknya menjadi tanda bagi pengguna, regulator, dan anggota parlemen bahwa OpenAI menganggap serius keselamatan.

Peluncuran mode ucapan tingkat lanjut ChatGPT juga semakin membedakan OpenAI dari pesaing seperti model Llama 3.1 dari Meta dan Claude 3 dari Anthropic, sehingga memberikan tekanan pada startup AI yang berfokus pada ucapan emosional.

berita

OpenAI tiba-tiba diperbarui! GPT-4o meluncurkan versi suara lanjutan, menjawab pertanyaan dalam hitungan detik, netizen jadi gila

Perkenalan

informasi kontak saya