Mode suara lanjutan ChatGPT sedang online: Segera setelah Anda berbicara bahasa Mandarin, identitas Anda akan terungkap

2024-07-31

Laporan Jantung Mesin

Editor: Saus Telur, Xiaozhou

“Her” OpenAI akhirnya terbuka untuk beberapa orang.

Pada bulan Mei tahun ini, OpenAI meluncurkan model generasi baru andalan GPT-4o dan Aplikasi desktop di "Peluncuran Produk Baru Musim Semi" dan mendemonstrasikan serangkaian kemampuan baru.

Kini, OpenAI telah mengumumkan bahwa mereka akan membuka mode suara lanjutan ChatGPT untuk sekelompok kecil pengguna ChatGPT Plus, memungkinkan pengguna mendapatkan respons audio ultra-realistis dari GPT-4o untuk pertama kalinya. Pengguna ini akan menerima peringatan di aplikasi ChatGPT dan menerima email berisi petunjuk tentang cara menggunakan aplikasi.

“Sejak demonstrasi pertama mode bicara tingkat lanjut, kami telah bekerja keras untuk meningkatkan keamanan dan kualitas percakapan suara dan bersiap untuk menghadirkan teknologi mutakhir ini kepada jutaan orang.” OpenAI mengatakan bahwa fitur ini akan tersedia secara bertahap di musim gugur 2024. Diperkenalkan ke semua pengguna Plus.

Beberapa pengguna telah memposting efek penggunaan mode suara lanjutan:

Sumber: https://x.com/tsarnick/status/1818402307115241608

Saat Anda menceritakan lelucon dengan ChatGPT, ChatGPT dapat membuat Anda tertawa:

Sumber: https://x.com/yoimnotkesku/status/1818406786077970663

Menggunakan mode suara lanjutan ChatGPT, "Dia" dapat membuat musik latar sambil bercerita, dan tersedia dalam berbagai bahasa.

Sumber: https://x.com/yoimnotkesku/status/1818415019349901354

Bahasa Prancis, Spanyol, dan Urdu juga tersedia:

Sumber: https://x.com/yoimnotkesku/status/1818424494106853438

Namun ungkapan bahasa Mandarinnya tidak terlalu otentik, seperti "orang gila" yang sedang belajar bahasa Mandarin:

Sumber: https://x.com/yoimnotkesku/status/1818446895083139170

Setiap orang yang mendengarkan tercengang:

Masalah aksen tidak hanya terjadi dalam bahasa Cina, tetapi juga dalam bahasa Jerman:

Sumber: https://x.com/yoimnotkesku/status/1818445235606671670

Terakhir, mari kita bahas tentang twister lidah:

Sumber: https://x.com/yoimnotkesku/status/1818427991514337695

OpenAI mengatakan mode suara lanjutan berbeda dari apa yang ditawarkan ChatGPT saat ini.

Solusi mode ucapan lama ChatGPT menggunakan tiga model terpisah: satu model mengonversi ucapan menjadi teks, GPT-4 bertanggung jawab untuk menangani perintah (prompt), dan model ketiga bertanggung jawab untuk mengonversi teks ChatGPT menjadi ucapan. GPT-4o bersifat multi-modal dan dapat menangani tugas-tugas ini tanpa bantuan model tambahan, sehingga mengurangi latensi dialog secara signifikan. OpenAI juga mengatakan bahwa GPT-4o dapat merasakan intonasi emosional dalam suara pengguna, termasuk kesedihan, kegembiraan, dll.

Pada bulan Mei tahun ini, OpenAI mendemonstrasikan fungsi suara GPT-4o untuk pertama kalinya. Kecepatan reaksi "Dia" dan kemiripannya yang luar biasa dengan suara orang sungguhan mengejutkan penonton--dan inilah masalahnya.

Suara bernama "Sky" ini mirip dengan Scarlett Johansson yang berperan sebagai asisten buatan di film "Her".

Tak lama setelah demo OpenAI, Johnson mengatakan dia telah menolak beberapa permintaan dari CEO OpenAI Sam Altman untuk menggunakan suaranya dan dia menyewa penasihat hukum untuk membela suaranya setelah melihat demo GPT-4o. OpenAI membantah menggunakan suara Scarlett Johansson tetapi juga menghapus suara tersebut dari demo.

Pada bulan Juni, OpenAI mengatakan akan menunda peluncuran mode bicara tingkat lanjut untuk meningkatkan langkah-langkah keamanannya.

Setelah menunggu lama, "Dia" akhirnya bertemu semua orang. OpenAI mengatakan mode suara lanjutan yang diluncurkan kali ini akan terbatas pada ChatGPT, yang telah berkolaborasi dengan pengisi suara berbayar untuk menghasilkan empat suara preset: Juniper, Breeze, Cove, dan Ember.

Perlu dicatat bahwa hanya ada empat jenis suara keluaran ini - suara Sky yang ditampilkan dalam demonstrasi OpenAI pada bulan Mei tidak lagi tersedia untuk ChatGPT. “ChatGPT tidak dapat meniru suara orang lain, termasuk suara individu dan tokoh masyarakat, dan akan memblokir keluaran yang berbeda dari salah satu suara yang telah ditetapkan sebelumnya,” kata juru bicara OpenAI Lindsay McCallum.

Tujuan awal dari pengaturan ini adalah untuk menghindari kontroversi Deepfake. Pada bulan Januari tahun ini, teknologi kloning suara dari startup kecerdasan buatan ElevenLabs digunakan untuk menyamar sebagai Presiden AS Biden dan menipu pemilih utama di New Hampshire, sehingga menimbulkan banyak kontroversi.

OpenAI juga mengatakan telah memperkenalkan filter baru untuk memblokir permintaan tertentu untuk menghasilkan musik atau audio lain yang dilindungi hak cipta.

Tahun lalu, banyak perusahaan AI generasi gambar dan musik terjerumus ke dalam sengketa hukum karena pelanggaran hak cipta. Secara khusus, perusahaan rekaman yang suka mengajukan tuntutan hukum telah menggugat pembuat audio kecerdasan buatan Suno dan Udio. Dan model audio seperti GPT-4o menambahkan kategori perusahaan baru yang dapat mengajukan keluhan.

OpenAI dikatakan telah menguji kemampuan suara GPT-4o dengan lebih dari 100 anggota “tim merah” eksternal dalam 45 bahasa. Informasi penting ini akan diumumkan secara lebih rinci dalam laporan tentang fungsi, batasan, dan penilaian keamanan GPT-4o pada bulan Agustus.

https://twitter.com/OpenAI/status/1818353580279316863

https://www.theverge.com/2024/7/30/24209650/openai-chatgpt-advanced-voice-mode

https://www.reuters.com/technology/openai-starts-roll-out-advanced-voice-mode-some-chatgpt-plus-users-2024-07-30/

https://www.bloomberg.com/news/articles/2024-07-30/openai-begins-rolling-out-voice-assistant-after-safety-related-delay?srnd=phx-technology

https://techcrunch.com/2024/07/30/openai-releases-chatgpts-super-realistic-voice-feature/

https://www.theinformation.com/briefings/after-delay-openai-releases-ai-voice-assistant

berita

Mode suara lanjutan ChatGPT sedang online: Segera setelah Anda berbicara bahasa Mandarin, identitas Anda akan terungkap

Perkenalan

informasi kontak saya