informasi kontak saya
surat[email protected]
2024-10-07
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
kompilasi jantung mesin
pengarang: omar khattab
editor: saus telur, zenan
menulis makalah? itu hanya satu langkah kecil.
selama masa pascasarjana, banyak orang sering bingung bagaimana menyusun penelitiannya sendiri. bagaimana kita melakukan penelitian untuk membuat perbedaan di bidang kecerdasan buatan yang sudah ramai?
terlalu banyak orang yang percaya bahwa proyek jangka panjang, rilis kode yang tepat, dan tolok ukur yang dipikirkan dengan matang tidak cukup memotivasi - terkadang ini bisa menjadi sesuatu yang anda lakukan dengan cepat dan penuh rasa bersalah, lalu kembali melakukan penelitian "nyata".
baru-baru ini, omar khattab, seorang mahasiswa phd di kelompok nlp di universitas stanford, menerbitkan postingan blog yang membahas pemikiran para pakar ai terkemuka dalam melakukan penelitian yang berdampak.
mari kita lihat apa yang dia katakan:
dampak penelitian hadir dalam berbagai bentuk, dan saya hanya akan fokus pada pengukuran dampak penelitian terhadap ai melalui pekerjaan sumber terbuka (misalnya model, sistem, kerangka kerja, atau tolok ukur). karena bagian dari tujuan saya adalah menyempurnakan ide-ide saya, mencatat saran-saran spesifik, dan mengumpulkan umpan balik, saya akan membuat pernyataan ini lebih ringkas. jika anda punya ide lain, silakan diskusikan di kolom komentar.
pertama, berikut adalah prinsip panduannya:
fokus pada proyek, bukan makalah.
anda dapat “menggali lubang” dengan memilih masalah yang sesuai dan memiliki lebih banyak ruang untuk dikembangkan.
pikirkan dua langkah ke depan dan ulangi dengan cepat.
publikasikan karya anda dan promosikan ide-ide anda.
temukan cara untuk memotivasi diri sendiri: berikut adalah tips untuk mengembangkan penelitian open source anda.
lanjutkan berinvestasi dalam proyek anda dengan surat kabar baru.
poin kelima, “tips untuk mengembangkan penelitian open source,” layak untuk dibahas lebih panjang. saya mungkin akan menulis tentang itu di posting saya berikutnya.
fokus pada proyek
daripada kertas
ini adalah pemikiran penting yang mendasari segala hal lainnya.
siswa pemula akan sangat menekankan penerbitan beberapa makalah pertama mereka. ini masuk akal: ini adalah cara anda belajar melakukan penelitian, mengeksplorasi arah awal, dan menunjukkan kemajuan awal. namun tahap ini harus anda tinggalkan: dalam jangka panjang, pencapaian dan pertumbuhan anda tidak akan terlalu bergantung pada jumlah makalah, melainkan lebih bergantung pada dampak dan keseluruhan konteks penelitian yang anda sampaikan.
sayangnya, terlalu banyak mahasiswa phd yang memandang perilaku yang berpotensi berdampak sebagai sesuatu yang "tidak memotivasi". hal ini membingungkan saya sampai saya menyadari bahwa tindakan tersebut mungkin memperlambat kemampuan anda untuk menerbitkan makalah berikutnya. namun kemampuan anda untuk menerbitkan makalah berikutnya dengan begitu cepat tidaklah penting.
saya menyarankan agar anda tidak menganggap pekerjaan anda sebagai serangkaian makalah yang terisolasi, tetapi tanyakan pada diri anda: visi besar apa yang akan anda pimpin, dan subbidang atau paradigma apa yang ada di dalamnya? perbedaan apa yang ingin anda buat dengan pekerjaan anda? jadi, anda akan menerbitkan makalah individual untuk mengeksplorasi dan menetapkan tolok ukur, sedangkan visi yang lebih besar harus menjadi sesuatu yang sengaja anda ulangi. masalah ini harus lebih besar daripada yang dimuat dalam makalah ini, dan tentu saja ini merupakan masalah yang belum terselesaikan sepenuhnya.
salah satu cara untuk melakukannya adalah dengan menyusun beberapa makalah penelitian seputar artefak yang koheren (seperti model, sistem, kerangka kerja, atau tolok ukur) yang anda pertahankan dalam domain sumber terbuka. strategi ini lebih mahal daripada "menjalankan beberapa eksperimen dan merilis repositori cepat," namun strategi ini memaksa anda untuk menemukan masalah dengan dampak nyata dan membantu memastikan bahwa penelitian baru yang anda lakukan benar-benar koheren dan berguna: anda tidak perlu berusaha untuk memperkenalkan fitur atau trik kecil yang tidak berguna untuk artefak yang telah anda kembangkan dan pelihara.
pilih pertanyaan yang sesuai dengan ruang lebih besar untuk perbaikan
bisa "menggali lubang"
tidak semua makalah yang anda tulis layak untuk diinvestasikan tanpa batas waktu. banyak makalah yang merupakan makalah eksplorasi satu kali saja. untuk menemukan arah yang bisa berubah menjadi proyek yang lebih besar, gunakan kriteria berikut.
pertama, permasalahannya harus mutakhir. anda dapat mendefinisikannya dengan banyak cara, tetapi dalamaistrategi yang efektif di lapangan adalah mencari ruang permasalahan yang akan “panas” dalam 2-3 tahun namun belum menjadi mainstream.
kedua, permasalahan tersebut harus mempunyai potensi gali lubang yang besar, yakni berpotensi berdampak pada banyak permasalahan di hilir. pada dasarnya, hasil dari pertanyaan-pertanyaan ini mungkin bermanfaat atau menarik bagi cukup banyak orang. peneliti dan orang-orang peduli dengan apa yang membantu mereka mencapai tujuan mereka, jadi pertanyaan anda mungkin seperti membantu orang lain membangun sesuatu atau mencapai tujuan penelitian atau produksi. anda dapat menerapkan filter ini untuk mempelajari landasan teori, infrastruktur sistem, benchmark baru, model baru, dan banyak hal lainnya.
ketiga, permasalahan harus dibiarkan dengan margin yang lebih besar. jika anda memberi tahu orang-orang bahwa sistem mereka bisa 1,5 kali lebih cepat atau 5% lebih efisien, itu mungkin tidak menarik. menurut saya, anda perlu menemukan masalah di mana, setidaknya setelah bertahun-tahun bekerja keras, anda memiliki harapan yang sangat besar untuk membuat sesuatu lebih cepat, katakanlah 20x lebih cepat atau 30% lebih efisien. tentu saja, anda tidak harus mencapai kesuksesan sepenuhnya, dan anda tidak perlu menunggu sampai anda benar-benar mencapainya untuk menerbitkan makalah pertama anda atau merilis karya pertama anda.
saya tidak ingin terlalu abstrak, mari gunakan colbert untuk mengilustrasikannya. di penghujung tahun 2019, penelitian penerapan bert untuk retrieval sangat populer, namun metode tersebut sangat mahal. tentu saja ada yang bertanya, bisakah kita meningkatkan efisiensi pendekatan ini secara signifikan? apa yang menjadikan ini pertanyaan yang bagus?
pertama, ini sangat pendahuluan. kami dapat memperkirakan dengan tepat bahwa pada tahun 2021 (1,5 tahun kemudian), banyak peneliti akan mencari arsitektur pengambilan yang efisien berdasarkan bert. kedua, ia memiliki banyak ruang untuk pengembangan. paradigma ml baru cenderung seperti ini karena sebagian besar upaya tersebut pada awalnya mengabaikan efisiensi. faktanya, pendekatan awal mungkin memerlukan waktu 30 detik untuk menjawab pertanyaan, namun kini pendekatan ini dapat menyelesaikan pengambilan dengan kualitas lebih tinggi dalam 30 milidetik, yang berarti 1.000 kali lebih cepat. ketiga, fanoutnya besar-besaran. pengambilan yang dapat diskalakan adalah masalah "fondasi" yang baik: setiap orang perlu membangun sesuatu di atas retriever, namun hanya sedikit yang ingin membangunnya.
pikirkan dua langkah ke depan
dan ulangi dengan cepat
sekarang setelah anda mempunyai masalah yang bagus, jangan terburu-buru memilih buah yang mudah di depan anda sebagai pendekatan anda! pada titik tertentu, setidaknya banyak orang pada akhirnya akan mempertimbangkan pendekatan yang "jelas".
sebaliknya, pikirkan setidaknya dua langkah ke depan. identifikasi jalan yang mungkin diambil kebanyakan orang ketika isu ini akhirnya menjadi arus utama. kemudian, identifikasi keterbatasan dari jalur itu sendiri dan berusahalah untuk memahami dan mengatasi keterbatasan tersebut.
seperti apa praktiknya? mari kita meninjau kembali kasus colbert. cara yang jelas untuk membangun retriever yang efisien menggunakan bert adalah dengan menyandikan dokumen ke dalam vektor. menariknya, pada akhir tahun 2019, hanya sedikit pekerjaan ir yang berhasil mencapai hal ini. misalnya, karya yang paling banyak dikutip dalam kategori ini (dpr) baru merilis pracetak pertamanya pada april 2020.
mengingat hal ini, anda mungkin berpikir bahwa hal yang benar untuk dilakukan pada tahun 2019 adalah membangun model ir vektor tunggal yang hebat melalui bert. sebaliknya, berpikir dua langkah ke depan akan menimbulkan pertanyaan: cepat atau lambat setiap orang akan membangun pendekatan vektor tunggal, lalu di manakah pendekatan vektor tunggal ini akan mengalami kebuntuan? faktanya, masalah ini memunculkan paradigma interaksi selanjutnya dan model yang banyak digunakan.
sebagai contoh lain, kita bisa menggunakan dspy. pada bulan februari 2022, ketika petunjuk menjadi semakin kuat, menjadi jelas bahwa orang-orang ingin menggunakan petunjuk untuk jaminan kualitas berbasis pengambilan, dibandingkan penyesuaian seperti sebelumnya. untuk melakukan ini, secara alami kita harus menetapkan metode. dalam dua langkah lebih jauh, kita bertanya: di manakah pendekatan seperti ini mengalami kebuntuan? pada akhirnya, pendekatan "ambil lalu hasilkan" (atau rag) mungkin merupakan pendekatan paling sederhana yang melibatkan lm.
untuk alasan yang sama seperti orang-orang yang tertarik pada hal ini, mereka jelas akan semakin tertarik pada: (i) mengekspresikan kombinasi modul yang lebih kompleks; (ii) mencari tahu apa yang harus dilakukan melalui dorongan otomatis atau penyempurnaan dari lm how to yang mendasarinya mengawasi atau mengoptimalkan jalur pipa kompleks yang dihasilkan. ini adalah dspy.
bagian kedua dari aturan ini adalah "ulangi dengan cepat". ini mungkin saran penelitian pertama yang diberikan penasihat saya matei zaharia (pemenang hadiah sloan dan pendiri apache spark) selama minggu pertama phd saya: dengan mengidentifikasi topik di mana anda dapat mengulanginya dengan cepat dan mendapatkan umpan balik (seperti penundaan atau verifikasi skor) versi soal, yang dapat sangat meningkatkan peluang anda memecahkan teka-teki. hal ini sangat penting terutama jika anda berpikir dua langkah ke depan, yang cukup sulit dan tidak pasti.
publikasikan pekerjaan anda
biarkan ide anda meresap
pada titik ini, anda telah menemukan masalah bagus dan terus mengulanginya hingga anda menemukan sesuatu yang keren dan menulis artikel yang berwawasan luas. jangan melanjutkan ke makalah berikutnya. sebaliknya, fokuslah untuk menyebarkan hasil pekerjaan anda ke dunia nyata dan berusahalah untuk berinteraksi secara nyata dengan orang-orang, bukan hanya tentang rilis makalah anda, namun tentang gambaran besar yang sedang anda teliti secara aktif. atau lebih baik lagi, beri tahu orang-orang tentang alat sumber terbuka berguna yang sedang anda bangun dan pelihara yang dapat menangkap ide-ide utama anda.
langkah umum pertama adalah mempublikasikan pracetak makalah anda di arxiv dan kemudian menerbitkan "postingan" yang mengumumkan publikasi makalah anda. saat melakukan ini, pastikan anda memulai postingan anda dengan klaim yang spesifik, substansial, dan dapat dimengerti. tujuannya bukan untuk memberi tahu orang-orang bahwa anda menerbitkan makalah yang tidak memiliki nilai intrinsik. tujuannya adalah untuk menyampaikan argumen utama anda dengan cara yang langsung dan menarik. (ya, saya tahu ini sulit, tapi itu perlu).
mungkin yang lebih penting, prosesnya tidak berakhir pada "peluncuran" pertama, melainkan hanya permulaan. mengingat anda sekarang berinvestasi dalam proyek, bukan hanya makalah, ide dan komunikasi ilmiah anda akan terus berlanjut sepanjang tahun, jauh melampaui publikasi makalah yang terisolasi.
ketika saya membantu mahasiswa pascasarjana men-tweet tentang pekerjaan mereka, tidak jarang postingan awal mereka tidak mendapat perhatian yang mereka harapkan. siswa sering kali melihat hal ini sebagai pembenaran atas ketakutan mereka untuk mempublikasikan penelitian mereka dan menganggapnya sebagai tanda lain bahwa mereka harus melanjutkan ke makalah berikutnya. jelas sekali, gagasan ini tidak benar.
ada banyak pengalaman pribadi, pengalaman langsung, dan pengamatan yang menunjukkan bahwa sangat masuk akal untuk bertahan dalam hal ini (yang, sayangnya, tidak banyak orang yang melakukannya). artinya, dengan pengecualian yang jarang terjadi, daya tarik ide yang baik mengharuskan anda menyampaikan hal-hal penting kepada orang-orang berkali-kali dalam konteks yang berbeda, dan terus menyempurnakan ide dan penyampaian ide anda hingga komunitas dapat berkembang seiring berjalannya waktu bidang mencapai tahap perkembangan yang tepat di mana ide-ide tersebut lebih mudah dipahami.
kumpulkan kegembiraan
kiat untuk menerbitkan penelitian sumber terbuka
membuat orang tertarik dengan penelitian anda adalah hal yang baik, namun menyampaikan ide anda ke aplikasi hilir yang relevan melalui penerbitan, kontribusi, dan pengembangan alat sumber terbuka seringkali dapat memberikan dampak yang lebih besar.
tidak mudah untuk melakukan ini: mengunggah file kode beserta readme ke github saja tidak cukup. repositori yang baik akan menjadi "rumah" proyek anda, lebih penting daripada makalah apa pun yang anda terbitkan.
penelitian open source yang baik memerlukan dua kualitas yang hampir independen. pertama, penelitian tersebut harus baik, baru, tepat waktu, memiliki cakupan yang luas, dan akurat. kedua, perusahaan tersebut harus memiliki utilitas hilir yang jelas dan gesekan yang rendah.
ini adalah bagian terpenting: orang akan berulang kali menghindari (dan orang lain akan berulang kali menggunakan) pekerjaan oss anda karena semua alasan yang "salah". misalnya, penelitian anda mungkin secara obyektif merupakan penelitian yang “canggih”, namun kemungkinan besar orang akan memprioritaskan alternatif yang lebih sedikit hambatannya. di sisi lain, mahasiswa pascasarjana sering kali tidak memahami alasan orang menggunakan alat anda, misalnya karena mereka tidak memanfaatkan sepenuhnya bagian paling kreatif anda. ini bukanlah sesuatu yang patut ditolak, namun sesuatu yang patut dipahami dan harus diperbaiki.
berdasarkan hal ini, saya ingin membuat daftar beberapa pencapaian yang perlu diperhatikan terkait dengan hasil penelitian open source.
milestone 0: membuat konten yang dipublikasikan tersedia
tidak ada gunanya merilis kode yang tidak dapat dijalankan oleh siapa pun. di bidang penelitian anda, orang-orang ini ingin meniru hasil penelitian anda. mungkin mereka akan melampaui pekerjaan anda dan mengutip hasil penelitian anda. orang-orang ini lebih sabar dibandingkan tipe pengguna lainnya. namun, anda akan menemukan perbedaan besar dalam dampak akademis tergantung pada seberapa mudah kode tersebut ditambal.
milestone 1: jadikan konten yang dipublikasikan bermanfaat
selain orang-orang di niche anda, anda harus memastikan rilis anda bermanfaat bagi audiens yang ingin benar-benar menggunakan proyek tersebut untuk membangun hal lain. dalam penelitian kecerdasan buatan, pencapaian ini jarang terjadi secara alami. anda harus mengalokasikan banyak waktu untuk memikirkan masalah yang coba dipecahkan oleh orang-orang (penelitian, produksi, dll.) dan di mana upaya ai anda dapat membantu. jika anda dapat melakukan ini dengan benar, maka akan mendapatkan banyak manfaat, mulai dari desain proyek hingga api yang diekspos dan dokumentasi/contoh yang disajikan.
milestone 2: membuat rilis dapat dimengerti
hal ini sulit bagi para peneliti ai, namun kita harus menyadari bahwa versi yang berguna, yang semuanya tersedia secara teknis dan dapat dijelaskan, tidak berarti bahwa sebagian besar calon pengguna anda akan menganggapnya demikian. versi ini mudah dipahami dan cukup untuk membuat mereka tertarik. terlibat dalam mempelajari atau mencobanya.
pakar ai terkenal andrej karpathy menulis artikel tentang masalah ini: "anda membangun sesuatu, dan kemudian anda perlu membangun jalur landai untuk mencapainya." ben clavie juga telah banyak menulis tentang hal ini, dan dia telah berperan besar dalam melakukan pekerjaan yang kami lakukan di colbert dan membuatnya lebih mudah didekati.
milestone 3: cari tahu mengapa alternatif yang jelas gagal dan bersabarlah
kami mulai dengan berbicara tentang memikirkan dua langkah ke depan. menurut pendapat saya, hal ini penting, namun hal ini juga berarti bahwa sebagian besar orang tidak akan memahami mengapa mereka memerlukan solusi terhadap masalah yang belum dapat mereka amati dengan jelas. saya pikir bagian dari tugas anda dari waktu ke waktu adalah membangun sebuah kasus. kumpulkan bukti dan jelaskan dengan cara yang mudah dipahami mengapa alternatif yang jelas (pikirkan selangkah demi selangkah) akan gagal.
pencapaian 4: pahami jenis pengguna dan manfaatkan hal ini untuk pertumbuhan
saat saya memulai colbert dan dspy, audiens awal saya adalah peneliti dan insinyur ml profesional. seiring waktu, saya belajar untuk melepaskan hal itu dan memahami bahwa anda dapat menjangkau audiens yang lebih besar, tetapi mereka menginginkan hal yang berbeda. sebelum melakukan apa pun, jangan memblokir berbagai kategori calon pengguna secara tidak langsung atau bahkan langsung. situasi ini jauh lebih umum daripada yang diperkirakan orang.
kedua, saat mencari pengguna, kita perlu menemukan keseimbangan antara kedua jenis pengguna tersebut. di satu sisi, pembuat ahli dengan kasus penggunaan tingkat lanjut mungkin mengharuskan anda menginvestasikan banyak uang, namun cenderung mendorong kasus penggunaan tertentu ke depan dalam artian penelitian, yang dapat membuahkan hasil. sebaliknya, pembuat publik biasanya bukan ahli ml, tetapi mereka sering kali membangun dan membagikan pembelajaran mereka di depan umum, memberikan kontribusi lebih besar terhadap pertumbuhan skala besar, dan akan membuat anda lebih memikirkan pembelajaran hipotesis awal anda. anda membutuhkan keduanya.
milestone 5: mengubah minat menjadi komunitas yang berkembang
keberhasilan sebenarnya dari pekerjaan oss terletak pada kehadiran komunitas dan pertumbuhannya yang berkelanjutan, terlepas dari upaya anda. secara umum, komunitas yang baik haruslah organik, namun anda perlu bekerja secara aktif untuk membantunya terbentuk, seperti menyambut kontribusi dan diskusi, dan mencari peluang untuk mengubah minat menjadi kontribusi atau semacam forum (seperti discord atau github).
milestone 6: mengubah minat menjadi proyek hilir yang aktif, kolaboratif, dan modular
kemungkinannya adalah, proyek oss anda pada tahap awal tidak menyelesaikan semua masalah dalam visi awal anda. proyek yang dirancang dengan baik sering kali memiliki beberapa bagian modular yang memungkinkan anda memulai kolaborasi penelitian (atau upaya lainnya) dan memungkinkan anggota tim baru untuk tidak hanya memajukan proyek, namun juga memiliki bagian penting dari proyek, sehingga membuatnya lebih cepat atau lebih besar pengaruhnya. ide-ide mereka sambil secara dramatis meningkatkan proyek. misalnya, dspy saat ini memiliki tim terpisah yang memimpin upaya penelitian dan pengembangan dalam pengoptimalan tepat waktu, abstraksi pemrograman, dan pembelajaran penguatan. komponen colbert seperti antarmuka pemrograman aplikasi eksternal, infrastruktur pengambilan yang mendasarinya, dan pemodelan inti terutama didorong oleh orang yang berbeda dalam proyek yang berbeda.
ayo, rangkum. penerapan penelitian open source memerlukan penelitian yang baik dan hasil open source yang baik. keseimbangan ini sulit dicapai, namun jika anda melakukannya dengan benar, hal ini akan sangat bermanfaat. secara pribadi, saya butuh waktu lama untuk memahami dan menginternalisasikan hal ini. hal ini berkat masukan yang berulang-ulang dari pembimbing doktoral saya, chris potts dan matei zaharia, serta masukan berharga dari heather miller dan jeremy howard.
kriteria untuk mengevaluasi penelitian adalah "peningkatan" dibandingkan dengan pengetahuan sebelumnya, tetapi sebelum seseorang dapat memanfaatkan "peningkatan" tersebut secara bermakna, perangkat lunak itu sendiri harus efektif. agar perangkat lunak menjadi efektif, dokumentasinya juga harus efektif: orang tidak akan melihat semua cara hilir yang seharusnya mereka gunakan dalam menggunakan perangkat lunak tersebut kecuali anda menunjukkannya kepada mereka. artinya, hingga tugas-tugas tersebut dapat dikembangkan oleh masyarakat yang mandiri.
karena itu semua, keterampilan terpenting di bagian ini adalah "menerbitkan", benar-benar menerbitkan, sering menerbitkan, dan belajar darinya.
publikasikan makalah baru
terus berinvestasi dalam proyek anda sendiri
ketika anda membaca aturan kelima, wajar jika anda bertanya: di manakah mahasiswa pascasarjana menghabiskan begitu banyak waktu pada perangkat lunak sumber terbuka? kapan penelitian nyata dapat dilakukan?
jawaban praktisnya adalah sebagian besar waktu yang dihabiskan pada open source dapat digunakan untuk melakukan penelitian baru dan menarik. keduanya tidak terpisah seperti kelihatannya. mengapa anda mengatakan itu?
pertama, menjadi yang terdepan dalam pekerjaan perangkat lunak sumber terbuka semacam ini memungkinkan anda mengidentifikasi masalah baru secara intuitif sejak dini. anda akan memahami masalahnya secara lebih naluriah dibandingkan sebaliknya. selain itu, komunitas yang anda bangun sering kali memberikan umpan balik langsung terhadap prototipe metode anda sendiri dan memberi anda akses ke kolaborator berbakat yang memahami pentingnya masalah tersebut. anda juga akan mendapatkan akses ke "saluran distribusi" yang berguna untuk memastikan bahwa setiap makalah baru yang anda terbitkan di area ini menjangkau audiens anda dan memperkuat platform anda yang sudah ada.
misalnya, "colbert" bukan sekadar makalah di awal tahun 2020. saat ini mereka mungkin memiliki sekitar sepuluh makalah terkait tindak lanjut, berinvestasi dalam pelatihan yang lebih baik, jejak memori yang lebih rendah, infrastruktur pengambilan yang lebih cepat, kemampuan beradaptasi domain yang lebih baik, dan pencocokan yang lebih baik dengan tugas-tugas nlp hilir. demikian pula dspy bukanlah sebuah makalah, melainkan kumpulan makalah tentang abstraksi pemrograman, optimasi petunjuk, dan program hilir. banyak dari makalah ini ditulis oleh berbagai penulis hebat, dan karya mereka memiliki dampak yang besar, sebagian dengan menciptakan khalayak yang besar melalui saluran perangkat lunak sumber terbuka.
jadi, alat open source yang baik dapat menciptakan karya modular yang dapat dieksplorasi, dimiliki, dan dikembangkan oleh peneliti dan kontributor baru.
referensi teks asli: https://github.com/okhat/blog/blob/main/2024.09.impact.md