berita

Versi GPT-4o "Her" akhirnya hadir! Bercanda dan mengeong seperti kucing, seberapa seksi pacar AI?

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Laporan Kebijaksanaan Baru

Editor: Taozi sangat mengantuk

[Pengantar Kebijaksanaan Baru] Fungsi suara GPT-4o akhirnya hadir seperti yang diharapkan, dan versi fiksi ilmiahnya menjadi kenyataan! Beberapa netizen yang menguji Grayscale menjadi gila. Namun, OpenAI saat ini hanya menyediakan 4 suara preset. Selain itu, token keluaran model GPT-4o baru juga melonjak 16 kali lipat menjadi 64K.

Janji Ultraman akhirnya terpenuhi.

Sebelum akhir bulan Juli, mode suara GPT-4o akhirnya memulai pengujian skala abu-abu, dan sejumlah kecil pengguna ChatGPT Plus telah memperoleh tiket pengguna awal.


Jika Anda melihat antarmuka berikut setelah membuka Aplikasi ChatGPT, selamat Anda telah menjadi salah satu orang pertama yang beruntung.


OpenAI mengklaim bahwa mode suara tingkat lanjut memberikan percakapan yang lebih alami dan real-time yang dapat diinterupsi sesuka hati, dan bahkan dapat merasakan serta merespons emosi Anda.

Diharapkan semua pengguna ChatGPT Plus dapat menggunakan fitur ini pada musim gugur ini.


Selain itu, berbagi video dan layar yang lebih canggih akan diluncurkan nanti. Dengan kata lain, dengan menyalakan kamera, Anda bisa ngobrol "tatap muka" dengan ChatGPT.


Beberapa netizen yang terpengaruh oleh skala abu-abu mulai menguji satu demi satu dan menemukan banyak kasus penggunaan mode suara GPT-4o.


Tidak, beberapa orang membiarkannya bertindak sebagai "pelatih bahasa asing kedua" untuk mengajari diri mereka sendiri cara berlatih berbicara.


Dalam pengajaran berikutnya, ChatGPT membantu netizen mengoreksi pengucapan Croissant (croissant) dan Baguette (French baguette).

Pada saat yang sama, token keluaran GPT-4o melonjak 16 kali lipat, dari 4,000 token awal menjadi 64,000 token.

Ini adalah model beta baru gpt-4o-64k-output-alpha yang diluncurkan OpenAI secara diam-diam di situs resminya baru-baru ini.


Token keluaran yang lebih panjang berarti sekitar 4 skrip film berdurasi panjang yang lengkap dapat diperoleh sekaligus.


Dia telah datang

Alasan mengapa fungsi suara GPT-4o dirilis sekarang adalah karena OpenAI telah melakukan uji keamanan dan kualitas dalam beberapa bulan terakhir.

Mereka menguji kemampuan suara GPT-4o dalam 45 bahasa dengan 100+ anggota tim merah.


Untuk melindungi privasi orang, tim melatih model tersebut untuk berbicara hanya menggunakan 4 "suara default".

Mereka juga menciptakan sistem untuk memblokir keluaran suara selain keempat suara tersebut.

Selain itu, pemfilteran konten juga penting, dan tim juga telah mengambil tindakan untuk mencegah pembuatan konten kekerasan dan terkait hak cipta.

OpenAI telah mengumumkan bahwa mereka berencana untuk merilis laporan terperinci mengenai kemampuan, keterbatasan, dan penilaian keamanan GPT-4o pada awal Agustus.


Pengukuran aktual di seluruh jaringan

Di bawah ini beberapa kasus mode suara GPT-4o yang dibagikan oleh netizen.

ChatGPT dapat melakukan beatboxing.


ChatGPT juga menceritakan lelucon bir dengan nada malu-malu, marah, dan lebih marah.

Beberapa netizen melontarkan lelucon khusus untuk ChatGPT, "Mengapa ilmuwan tidak percaya pada Atom Adam, karena merekalah yang menciptakan segalanya."

ChatGPT tertawa canggung.

Lucunya lagi ChatGPT masih punya cara belajar mengeong.

Setelah beberapa pengujian, seseorang menemukan bahwa mode suara lanjutan ChatGPT sangat cepat dan hampir tidak ada penundaan dalam menjawab.

Saat diminta untuk meniru beberapa suara, ia selalu mereproduksi suara tersebut secara realistis. Dan aksen yang berbeda juga bisa ditiru.


Video di bawah ini memperlihatkan adegan dimana AI berperan sebagai komentator pertandingan sepak bola.

ChatGPT bercerita dalam bahasa Mandarin yang juga sangat jelas.

Meski OpenAI mengklaim fitur berbagi video dan layar akan diluncurkan nanti, namun beberapa netizen sudah menggunakannya terlebih dahulu.


Seorang netizen punya kucing peliharaan baru. Dia membuat sarang untuknya dan menyiapkan makanan untuknya, tapi dia tidak tahu harus berbuat apa, jadi dia bertanya pada ChatGPT.

Dalam perbincangan dalam video tersebut, netizen menunjukkan rumah kucing tersebut. Setelah melihatnya, ChatGPT berkomentar, “Pasti nyaman sekali” dan prihatin dengan keadaan kucing tersebut.

Netizen mengatakan bahwa ia belum makan dan terlihat sedikit khawatir. ChatGPT menghibur, "Ini normal. Kucing butuh waktu untuk beradaptasi."

Terlihat bahwa keseluruhan proses tanya jawab sangat lancar sehingga memberikan perasaan berkomunikasi dengan orang sungguhan.

Netizen juga menemukan konsol game versi Jepang, tetapi mereka tidak bisa berbahasa Jepang.

Kali ini, dia menunjukkan antarmuka game tersebut ke ChatGPT dan memintanya untuk menerjemahkannya untuknya. Akhirnya, Hu menyelesaikan game tersebut bersama-sama.

Saya harus mengatakan bahwa dengan berkat mode visual + suara, ChatGPT jauh lebih kuat.

Output Panjang GPT-4o online dengan tenang, dengan output hingga 64K

Selain itu, GPT-4o, yang mendukung keluaran token lebih besar, akan menyusul.

Baru kemarin, OpenAI secara resmi mengumumkan bahwa mereka akan menyediakan versi GPT-4o Alpha kepada penguji, yang mendukung keluaran hingga 64 ribu token per permintaan, yang setara dengan novel setebal 200 halaman.

Penguji dapat mengakses fungsi keluaran panjang GPT-4o dari "gpt-4o-64k-output-alpha".

Namun, harga model baru ini sekali lagi menetapkan batas atas yang baru. Biayanya $6 per juta token masukan dan $18 per juta token keluaran.

Meskipun token keluarannya 16 kali lipat dari GPT-4o, harganya juga meningkat sebesar US$3.


Setelah dibandingkan, gpt-4o-mini memang lebih terjangkau!


Peneliti Simon Willison mengatakan keluaran panjang terutama digunakan untuk kasus penggunaan transformasi data.

Misalnya, untuk menerjemahkan dokumen dari satu bahasa ke bahasa lain, atau untuk mengekstrak data terstruktur dari dokumen, hampir setiap token masukan perlu digunakan dalam keluaran JSON.

Sebelumnya, model keluaran terpanjang yang dia tahu adalah GPT-4o mini, yaitu 16 ribu token.


Mengapa meluncurkan model dengan output lebih lama?

Tentu saja, keluaran yang lebih panjang memungkinkan GPT-4o memberikan respons yang lebih komprehensif dan mendetail, yang sangat membantu dalam beberapa skenario.

Misalnya menulis kode dan meningkatkan kemampuan menulis.

Ini juga merupakan penyesuaian yang dilakukan oleh OpenAI berdasarkan umpan balik pengguna bahwa diperlukan konten keluaran yang lebih panjang untuk memenuhi kasus penggunaan.

Perbedaan Antara Konteks dan Output

Sejak diluncurkan, GPT-4o telah menyediakan jendela konteks maksimum sebesar 128K. Untuk Output Panjang GPT-4o, jendela konteks maksimum masih 128K.

Jadi, bagaimana OpenAI meningkatkan jumlah token keluaran dari 4.000 menjadi 64.000 sambil mempertahankan jendela konteks keseluruhan sebesar 128 ribu?

Pasalnya, OpenAI awalnya membatasi jumlah token keluaran maksimal 4.000 token.

Artinya, pengguna dapat menggunakan hingga 124.000 token sebagai masukan dalam satu interaksi dan hanya dapat memperoleh hingga 4.000 token keluaran.

Tentu saja, Anda juga dapat memasukkan lebih banyak token, yang berarti lebih sedikit token yang dihasilkan.

Bagaimanapun, panjang konteks panjang (128K) ditetapkan di sana, tidak peduli bagaimana masukannya berubah, token keluaran tidak akan melebihi 4000.

Sekarang, OpenAI membatasi panjang token keluaran menjadi 64.000 token, yang berarti Anda dapat mengeluarkan token 16 kali lebih banyak dari sebelumnya.

Bagaimanapun, outputnya lebih intensif secara komputasi dan kenaikan harga lebih besar.

Demikian pula untuk GPT-4o mini terbaru, konteksnya juga 128K, tetapi output maksimum ditingkatkan menjadi 16,000 token.

Kemudian, pengguna dapat memberikan hingga 112,000 token sebagai masukan dan pada akhirnya mendapatkan hingga 16,000 token sebagai keluaran.

Secara umum, OpenAI memberikan solusi di sini untuk membatasi token masukan guna mendapatkan respons yang lebih panjang dari LLM, daripada secara langsung memperluas panjang konteks.


Sedangkan untuk model lain yang ada di pasaran, yang panjang sudah melebihi satu juta (Gemini), dan yang sedikit lebih pendek memiliki 200K (Claude); bahkan ada yang keluaran modelnya sudah mencapai 200K, dan OpenAI masih ada.

Hal ini juga menimbulkan masalah yang sulit bagi pengembang: jika Anda ingin memasukkan lebih banyak, Anda harus menerima lebih sedikit keluaran; jika Anda ingin lebih banyak keluaran, Anda harus menerima lebih sedikit masukan.

Cara mengukurnya tergantung mana yang rela Anda korbankan...

Referensi:

https://x.com/OpenAI/status/1818353580279316863

https://x.com/tsarnick/status/1818402307115241608

https://x.com/kimmonismus/status/1818409637030293641

https://www.reddit.com/r/singularity/comments/1eg51gz/chatgpt_advanced_audio_helping_me_pronouce/

https://venturebeat.com/ai/openai-launches-experimental-gpt-4o-long-output-model-with-16x-token-capacity/