berita

AI generatif mungkin mengantarkan tren berikutnya: model TTT

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Fokus dari kecerdasan buatan generatif (AI) generasi berikutnya mungkin adalah model pelatihan waktu pengujian, atau disingkat TTT.

Arsitektur Transformers adalah fondasi model video OpenAI Sora dan inti model pembuatan teks seperti Claude Anthropic, Gemini Google, dan model andalan OpenAI GPT-4o. Namun kini, evolusi model tersebut mulai menemui kendala teknis, terutama yang berkaitan dengan komputasi. Karena Transformer tidak terlalu efisien dalam memproses dan menganalisis data dalam jumlah besar, setidaknya saat dijalankan pada perangkat keras yang tersedia. Dunia usaha membangun dan memperluas infrastruktur untuk memenuhi kebutuhan Transformers, yang mengakibatkan peningkatan dramatis dalam permintaan listrik yang mungkin tidak mampu memenuhi permintaan secara berkelanjutan.

Bulan ini para peneliti dari Universitas Stanford, UC San Diego, UC Berkeley dan Meta bersama-sama mengumumkan bahwa mereka menghabiskan waktu satu setengah tahun untuk mengembangkan arsitektur TTT. Tim peneliti mengklaim bahwa model TTT tidak hanya dapat menangani lebih banyak data dibandingkan Transformers, tetapi juga tidak mengonsumsi daya komputasi sebanyak Transformers.

Mengapa pihak luar menganggap model TTT lebih menjanjikan dibandingkan Transformers? Hal pertama yang harus dipahami adalah bahwa komponen fundamental Transformers adalah "keadaan tersembunyi", yang pada dasarnya merupakan daftar data yang panjang. Saat Transformer memproses sesuatu, ia menambahkan entri ke status tersembunyi untuk "mengingat" apa yang baru saja diproses. Misalnya, jika model sedang memproses sebuah buku, nilai status tersembunyi akan menjadi representasi sebuah kata (atau bagian dari sebuah kata).

Yu Sun, rekan postdoctoral di Universitas Stanford yang berpartisipasi dalam penelitian TTT tersebut, baru-baru ini menjelaskan kepada media bahwa jika Transformer dianggap sebagai entitas cerdas, maka tabel pencarian dan keadaan tersembunyinya adalah otak dari Transformer. Otak ini mengimplementasikan beberapa fitur Transformer yang terkenal, seperti pembelajaran kontekstual.

Keadaan tersembunyi membantu Transformers menjadi kuat, namun juga menghambat perkembangan Transformers. Misalnya, Transformers baru saja membaca sebuah buku. Untuk "mengucapkan" satu kata pun dalam buku ini, model Transformers harus memindai seluruh tabel pencarian. Persyaratan komputasi ini setara dengan membaca ulang seluruh buku.

Jadi Sun dan peneliti lain di TTT berpikir untuk mengganti keadaan tersembunyi dengan model pembelajaran mesin—seperti boneka bersarang AI, model di dalam model. Berbeda dengan tabel pencarian Transformers, model pembelajaran mesin internal model TTT tidak berkembang seiring dengan semakin banyaknya data yang diproses. Sebaliknya, model TTT mengkodekan data yang diproses ke dalam variabel representatif yang disebut bobot, itulah sebabnya model TTT memiliki kinerja tinggi. Berapa pun banyak data yang diproses model TTT, ukuran model internalnya tidak berubah.

Sun percaya bahwa model TTT masa depan dapat secara efisien memproses miliaran data, mulai dari kata hingga gambar, dari rekaman hingga video. Hal ini jauh melampaui kemampuan model yang ada. Sistem TTT dapat mengucapkan X kata pada sebuah buku tanpa harus melakukan perhitungan rumit dengan membaca ulang buku sebanyak X kali. “Model video skala besar berdasarkan Transformers, seperti Sora, hanya dapat menangani video berdurasi 10 detik karena mereka hanya memiliki 'otak' tabel pencarian. Tujuan utama kami adalah mengembangkan sistem yang dapat menangani video berdurasi panjang yang mirip dengan pengalaman visual. dalam kehidupan manusia”

Akankah model TTT pada akhirnya menggantikan trafo? Media percaya bahwa hal ini mungkin terjadi, namun masih terlalu dini untuk menarik kesimpulan sekarang. Model TTT bukanlah pengganti langsung Transformers saat ini. Para peneliti hanya mengembangkan dua model kecil untuk penelitian ini, sehingga saat ini sulit untuk membandingkan TTT dengan hasil yang dicapai oleh beberapa model Transformers yang lebih besar.

Mike Cook, dosen senior Departemen Informatika di King's College London yang tidak terlibat dalam studi TTT tersebut, berkomentar bahwa TTT merupakan inovasi yang sangat menarik. Jika data mendukung gagasan bahwa TTT dapat meningkatkan efisiensi, maka itu adalah kabar baik , tapi dia tidak tahu. Apakah TTT lebih baik dari arsitektur yang ada? Cook mengatakan bahwa ketika ia masih sarjana, seorang profesor tua sering melontarkan lelucon: Bagaimana Anda memecahkan masalah dalam ilmu komputer? Tambahkan lapisan abstraksi lainnya. Menambahkan jaringan saraf ke jaringan saraf mengingatkannya pada solusi lelucon ini.