berita

GraphRAG open source Microsoft meledak popularitasnya, apakah AI generatif telah memasuki era grafik pengetahuan?

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Laporan Jantung Mesin

Editor: Panda W

Grafik pengetahuan tidak pernah mundur dari lingkungan!

LLM sangat kuat, namun juga memiliki beberapa kekurangan yang jelas, seperti masalah halusinasi, interpretasi yang buruk, kegagalan untuk memahami fokus masalah, masalah privasi dan keamanan, dll. Retrieval-augmented generation (RAG) dapat secara signifikan meningkatkan kualitas pembangkitan dan kegunaan hasil LLM.

Pada awal bulan ini, Microsoft merilis GraphRAG, solusi basis pengetahuan RAG open source yang paling kuat. Proyek ini menjadi populer segera setelah online, dan sekarang jumlah bintangnya telah mencapai 10,5 ribu.



  • Alamat proyek: https://github.com/microsoft/graphrag
  • Dokumentasi resmi: https://microsoft.github.io/graphrag/

Beberapa orang mengatakan bahwa ini lebih kuat dari RAG biasa:



GraphRAG menggunakan LLM untuk menghasilkan grafik pengetahuan, yang secara signifikan dapat meningkatkan kinerja tanya jawab saat melakukan analisis dokumen pada informasi kompleks, terutama saat menangani data pribadi.



Hasil perbandingan antara GraphRAG dan RAG tradisional

Saat ini, RAG adalah teknik yang menggunakan informasi dunia nyata untuk meningkatkan keluaran LLM dan merupakan bagian penting dari sebagian besar alat berbasis LLM. Secara umum, RAG menggunakan kesamaan vektor sebagai pencarian, yang disebut Baseline RAG. Namun Baseline RAG tidak bekerja sempurna dalam beberapa situasi. Misalnya:

  • RAG dasar kesulitan menghubungkan titik-titik tersebut. Hal ini terjadi ketika menjawab pertanyaan memerlukan penelusuran informasi yang berbeda melalui atribut bersama untuk memberikan wawasan gabungan baru;
  • Baseline RAG berkinerja buruk ketika diminta untuk memahami ringkasan konsep semantik secara komprehensif dalam kumpulan data besar atau bahkan dalam satu dokumen besar.

GraphRAG yang diusulkan oleh Microsoft menggunakan LLM untuk membuat grafik pengetahuan berdasarkan perpustakaan teks masukan. Grafik ini menggabungkan ringkasan komunitas dan keluaran pembelajaran mesin grafik untuk menyempurnakan petunjuk pada waktu kueri. GraphRAG menunjukkan peningkatan yang signifikan dalam menjawab kedua jenis pertanyaan tersebut, menunjukkan kinerja yang lebih baik dibandingkan metode sebelumnya pada kumpulan data pribadi.

Namun, ketika semua orang semakin memahami GraphRAG, mereka menemukan bahwa prinsip dan isinya sangat sulit untuk dipahami.



Baru-baru ini, Philip Rathle, CTO Perusahaan Neo4j, menerbitkan artikel blog berjudul "Manifesto GraphRAG: Menambahkan Pengetahuan ke AI Generatif". Rathle memperkenalkan prinsip-prinsip GraphRAG, perbedaan dari RAG tradisional, dan Keunggulan GraphRAG dan banyak lagi.

Dia berkata: "Aplikasi AI generatif Anda berikutnya mungkin akan menggunakan grafik pengetahuan."



Kepala Teknisi Neo4j Philip Rathle

Baca artikel di bawah ini.

Kami mulai menyadari hal ini: untuk melakukan sesuatu yang sangat berarti dengan AI generatif, Anda tidak bisa hanya mengandalkan LLM autoregresif untuk mengambil keputusan bagi Anda.

Saya tahu apa yang Anda pikirkan: "Gunakan RAG." Atau sempurnakan, atau tunggu GPT-5.

Ya. Teknik seperti generasi augmentasi pengambilan berbasis vektor (RAG) dan penyesuaian dapat membantu Anda. Dan mereka menyelesaikan kasus penggunaan tertentu dengan cukup baik. Namun ada satu jenis kasus penggunaan yang akan menghentikan semua teknologi ini.

Untuk banyak permasalahan, solusi RAG berbasis vektor (dan penyesuaian) pada dasarnya adalah untuk meningkatkan kemungkinan jawaban yang benar. Namun tidak ada teknik yang memberikan tingkat kepastian tentang jawaban yang benar. Seringkali mereka kekurangan konteks dan menyulitkan Anda untuk terhubung dengan sesuatu yang sudah Anda ketahui. Selain itu, alat-alat ini tidak memberikan petunjuk mengapa keputusan tertentu dibuat.

Mari kita kembalikan perhatian kita ke tahun 2012, ketika Google meluncurkan mesin pencari generasi kedua dan menerbitkan postingan blog ikonik "Memperkenalkan Grafik Pengetahuan: benda, bukan string". Mereka menemukan bahwa jika, selain melakukan berbagai pemrosesan string, mereka menggunakan grafik pengetahuan untuk mengatur semua hal yang direpresentasikan sebagai string di halaman web, hal ini dapat menghasilkan peningkatan besar dalam penelusuran.

Kini, pola serupa muncul di bidang AI generatif. Banyak proyek AI generatif menemui jalan buntu, karena kualitas hasilnya dibatasi oleh fakta bahwa solusinya berkaitan dengan hal-hal tertentu, bukan benda.

Kini, para insinyur AI dan peneliti akademis mutakhir telah menemukan kembali apa yang pernah ditemukan Google: rahasia untuk memecahkan hambatan ini adalah grafik pengetahuan. Dengan kata lain, memperkenalkan pengetahuan tentang berbagai hal ke dalam teknologi teks berbasis statistik. Cara kerjanya mirip dengan RAG lainnya, hanya saja selain pengindeksan vektor juga disebut grafik pengetahuan. Yaitu: GraphRAG! (GraphRAG = Grafik Pengetahuan + RAG)

Tujuan artikel ini adalah untuk memberikan pengenalan GraphRAG yang komprehensif dan mudah dipahami. Penelitian menunjukkan bahwa menyusun data Anda menjadi grafik pengetahuan dan menggunakannya melalui RAG dapat memberi Anda beberapa keuntungan besar. Banyak penelitian yang membuktikan bahwa GraphRAG dapat menjawab sebagian besar atau seluruh pertanyaan yang Anda ajukan pada LLM lebih baik dibandingkan RAG yang hanya menggunakan vektor biasa.

Keuntungan ini saja sudah cukup untuk mendorong adopsi GraphRAG.

Namun hal ini tidak berhenti disitu saja; karena datanya terlihat saat membuat aplikasi, pengembangannya juga lebih mudah.

Keuntungan ketiga dari GraphRAG adalah manusia dan mesin dapat memahami grafik dengan baik dan melakukan inferensi berdasarkan grafik tersebut. Hasilnya, membangun aplikasi menggunakan GraphRAG menjadi lebih sederhana dan memberikan hasil yang lebih baik, serta lebih mudah untuk diinterpretasikan dan diaudit (penting bagi banyak industri).

Saya yakin GraphRAG akan menggantikan RAG khusus vektor sebagai arsitektur RAG default untuk sebagian besar kasus penggunaan. Artikel ini menjelaskan alasannya.

Apa itu peta?

Pertama kita harus memperjelas apa itu grafik.

Grafik, juga dikenal sebagai grafik, sering diterjemahkan sebagai "grafik", namun oleh karena itu mudah dikacaukan dengan konsep seperti gambar dan gambar. Untuk memudahkan pembedaan, artikel ini hanya menggunakan metode terjemahan "图图".

Grafiknya mungkin terlihat seperti ini:



Contoh peta

Meskipun gambar ini sering digunakan sebagai contoh grafik pengetahuan, namun sumber dan penulisnya sudah tidak diketahui lagi.

atau ini:



Peta hubungan karakter "Game of Thrones", dari William Lyon

atau ini:



Peta bawah tanah London. Fakta menarik: Transport for London baru-baru ini menerapkan aplikasi digital twin berbasis grafik untuk meningkatkan kemampuan respons insiden dan mengurangi kemacetan.

Dengan kata lain, peta bukanlah diagram.

Di sini kami tidak akan terlalu memikirkan masalah definisi, dengan asumsi Anda sudah memahami apa itu peta.

Jika Anda memahami gambar di atas, Anda mungkin dapat melihat bagaimana data grafik pengetahuan yang mendasarinya (disimpan dalam database grafik) dapat ditanyakan dan digunakan sebagai bagian dari alur kerja RAG. Itu adalah GraphRAG.

Dua bentuk penyajian pengetahuan: vektor dan grafik

Inti dari RAG yang khas adalah pencarian vektor, yaitu menemukan dan mengembalikan teks yang serupa secara konseptual dari bahan tertulis kandidat berdasarkan blok teks masukan. Otomatisasi semacam ini berfungsi dengan baik, dan bahkan penelusuran dasar pun berguna.

Namun setiap kali Anda melakukan pencarian, Anda mungkin tidak memikirkan apa itu vektor atau bagaimana penghitungan kesamaan diterapkan. Selanjutnya mari kita lihat Apple. Ini menyajikan berbagai bentuk dari perspektif manusia, perspektif vektor, dan perspektif grafik:



Apple dari perspektif manusia, perspektif vektor, dan perspektif peta

Bagi manusia, representasi apel bersifat kompleks dan multidimensi, serta karakteristiknya tidak dapat dijelaskan sepenuhnya di atas kertas. Di sini kita secara puitis dapat membayangkan bahwa foto berwarna merah ini dapat mewakili sebuah apel secara persepsi dan konseptual.

Representasi vektor apel ini adalah sebuah array. Keajaiban vektor adalah masing-masing vektor menangkap esensi teks terkait dalam bentuk kode. Namun dalam konteks RAG, vektor hanya diperlukan ketika Anda perlu menentukan seberapa mirip suatu bagian teks dengan bagian teks lainnya. Untuk melakukan ini, cukup lakukan perhitungan kesamaan dan periksa kecocokannya. Namun jika Anda ingin memahami makna di dalam vektor, memahami apa yang direpresentasikan dalam teks, dan mendapatkan wawasan mengenai hubungannya dengan konteks yang lebih luas, maka menggunakan representasi vektor tidak akan membantu Anda.

Sebaliknya, grafik pengetahuan mewakili dunia dalam bentuk deklaratif - dalam terminologi bidang AI, yaitu simbolis. Oleh karena itu, baik manusia maupun mesin dapat memahami grafik pengetahuan dan melakukan penalaran berdasarkan grafik tersebut. Ini penting dan akan disebutkan nanti.

Selain itu, Anda dapat membuat kueri, memvisualisasikan, memberi anotasi, memodifikasi, dan memperluas grafik pengetahuan. Grafik pengetahuan adalah model dunia yang dapat mewakili dunia di bidang pekerjaan Anda saat ini.

GrafRAG dan RAG

Keduanya tidak bersaing. Untuk RAG, kueri vektor dan kueri grafik berguna. Seperti yang ditunjukkan oleh Jerry Liu, pendiri LlamaIndex: Saat memikirkan tentang GraphRAG, akan sangat membantu jika menyertakan vektor. Ini berbeda dari "RAG khusus vektor" - yang sepenuhnya didasarkan pada kesamaan antara penyematan teks.

Pada dasarnya, GraphRAG adalah sejenis RAG, hanya saja jalur pencariannya menyertakan grafik pengetahuan. Seperti yang akan Anda lihat di bawah, skema inti GraphRAG sangat sederhana. Arsitekturnya sama dengan RAG yang menggunakan vektor, tetapi menyertakan lapisan grafik pengetahuan.

Modus GrafRAG

Pola umum untuk GraphRAG



Seperti yang Anda lihat, kueri grafik dipicu pada gambar di atas. Ini secara opsional dapat menyertakan komponen kesamaan vektor. Anda dapat memilih untuk menyimpan grafik dan vektor dalam dua database berbeda, atau menggunakan database grafik seperti Neo4j yang mendukung pencarian vektor.

Pola umum untuk menggunakan GraphRAG diberikan di bawah ini:

1. Lakukan pencarian vektor atau pencarian kata kunci untuk menemukan sekumpulan node awal;

2. Lintasi grafik dan kembalikan informasi tentang node yang relevan;

3. (Opsional) Gunakan algoritma pemeringkatan berbasis grafik seperti PageRank untuk menentukan peringkat ulang dokumen

Kasus penggunaan yang berbeda akan menyebabkan pola penggunaan yang berbeda. Seperti semua arah penelitian di bidang AI saat ini, GraphRAG juga merupakan bidang yang kaya akan penelitian, dengan penemuan-penemuan baru yang muncul setiap minggunya.

siklus hidup GraphRAG

AI generatif yang menggunakan GraphRAG juga mengikuti pola aplikasi RAG lainnya. Ada langkah "membuat grafik" di awal:



siklus hidup GraphRAG

Membuat grafik mirip dengan memotong dokumen dan memuatnya ke dalam database vektor. Kemajuan alat telah membuat pembuatan peta menjadi cukup mudah. Inilah tiga kabar baik:

1. Peta sangat berulang - Anda dapat memulai dengan "peta minimum yang layak" dan kemudian mengembangkannya berdasarkan peta tersebut.

2. Setelah data ditambahkan ke grafik pengetahuan, data tersebut dapat dengan mudah dikembangkan. Anda dapat menambahkan lebih banyak tipe data untuk mendapatkan dan memanfaatkan efek jaringan data. Anda juga dapat meningkatkan kualitas data untuk meningkatkan nilai aplikasi Anda.

3. Bidang ini berkembang pesat, yang berarti seiring dengan semakin canggihnya peralatan, pembuatan peta akan semakin mudah.

Menambahkan langkah pembuatan peta ke gambar sebelumnya akan menghasilkan alur kerja seperti yang ditunjukkan di bawah ini:



Tambahkan langkah pembuatan peta

Mari kita lihat manfaat apa yang dapat diberikan oleh GraphRAG.

Mengapa menggunakan GraphRAG?

Dibandingkan dengan RAG khusus vektor, keunggulan GraphRAG dibagi menjadi tiga kategori:

1. Akurasi lebih tinggi dan jawaban lebih lengkap (runtime/keunggulan produksi)

2. Setelah grafik pengetahuan dibuat, akan lebih mudah untuk membangun dan memelihara aplikasi RAG (keunggulan waktu pengembangan)

3. Keterjelasan, ketertelusuran, dan kontrol akses yang lebih baik (keunggulan tata kelola)

Berikut ini penjelasan mendalam tentang manfaat-manfaat ini.

1. Jawaban yang lebih akurat dan bermanfaat

Keuntungan pertama GraphRAG (dan yang paling langsung terlihat) adalah kualitas responsnya yang lebih tinggi. Baik di dunia akademis maupun industri, kita dapat melihat banyak bukti yang mendukung pengamatan ini.

Seperti contoh dari perusahaan katalog data Data.world. Pada akhir tahun 2023, mereka merilis laporan penelitian yang menunjukkan bahwa GraphRAG dapat meningkatkan akurasi respon LLM rata-rata 3 kali lipat pada 43 pertanyaan bisnis. Studi benchmark ini memberikan bukti bahwa grafik pengetahuan dapat meningkatkan akurasi respons secara signifikan.



Grafik pengetahuan meningkatkan keakuratan respons LLM sebesar 54,2 poin persentase, yaitu sekitar 3 kali lipat.

Microsoft juga memberikan serangkaian bukti, termasuk blog penelitian Februari 2024 "GraphRAG: Membuka kunci penemuan LLM pada data pribadi naratif" dan makalah penelitian terkait "Dari Lokal ke Global: Pendekatan Graph RAG hingga Peringkasan Berfokus pada Kueri" 》Dan perangkat lunak: https://github.com/microsoft/graphrag (GraphRAG disebutkan di awal di atas).

Di antara mereka, mereka mengamati dua masalah berikut dengan RAG dasar yang menggunakan vektor:

  • RAG dasar menyulitkan menghubungkan titik-titik. Untuk mensintesis informasi yang berbeda guna memperoleh wawasan baru, fragmen informasi yang berbeda perlu dilintasi melalui atribut bersama. Saat ini, RAG dasar sulit untuk menghubungkan fragmen informasi yang berbeda.
  • Baseline RAG berkinerja buruk ketika diminta untuk memahami secara komprehensif konsep semantik yang diringkas secara induktif pada kumpulan data besar atau bahkan satu dokumen besar.

Microsoft menemukan: “Dengan menggunakan grafik pengetahuan yang dihasilkan oleh LLM, GraphRAG dapat secara signifikan meningkatkan bagian “pengambilan” RAG, mengisi konten yang lebih relevan untuk jendela konteks, sehingga mendapatkan jawaban yang lebih baik dan memperoleh sumber bukti. ” Mereka juga menemukan bahwa dibandingkan metode alternatif lainnya, GraphRAG memerlukan token 26% hingga 97% lebih sedikit, sehingga tidak hanya memberikan jawaban yang lebih baik, namun juga memiliki biaya lebih rendah dan skalabilitas lebih baik.

Jika kita menggali lebih dalam mengenai keakuratannya, kita tahu bahwa meskipun jawaban yang benar itu penting, namun juga harus berguna. GraphRAG terbukti tidak hanya membuat jawaban menjadi lebih akurat, namun juga membuat jawaban menjadi lebih kaya, lebih lengkap, dan lebih bermanfaat.

Makalah terbaru LinkedIn "Retrieval-Augmented Generation with Knowledge Graphs for Customer Service Question Answering" adalah contoh bagus dari dampak GraphRAG pada aplikasi layanan pelanggannya. GraphRAG meningkatkan keakuratan dan kekayaan jawaban layanan pelanggannya, menjadikannya lebih berguna, dan mengurangi waktu rata-rata yang dibutuhkan tim layanan pelanggannya untuk menyelesaikan setiap masalah sebesar 28,6%.

Lokakarya AI Generatif Neo4j memiliki contoh serupa. Seperti yang ditunjukkan di bawah ini, ini adalah jawaban yang diperoleh dengan metode "vektor + GraphRAG" dan "khusus vektor" untuk sekumpulan pengajuan SEC:



Perbandingan metode "vector only" dan "vector + GraphRAG".

Harap perhatikan perbedaan antara "jelaskan karakteristik perusahaan yang mungkin terkena dampak kekurangan litium" dan "daftar perusahaan tertentu yang mungkin terkena dampak". Jika Anda seorang investor yang ingin menyeimbangkan kembali portofolionya sebagai respons terhadap perubahan pasar, atau perusahaan yang ingin menyelaraskan kembali rantai pasokannya sebagai respons terhadap bencana alam, informasi di sisi kanan bagan di atas tentu saja jauh lebih penting daripada informasi tersebut. di kiri. Di sini, kedua jawaban tersebut akurat. Namun jawaban di sebelah kanan jelas lebih bermanfaat.

Going Meta Episode 23 karya Jesus Barrasa memberikan contoh bagus lainnya: dimulai dengan peta kata hingga bekerja dengan dokumen hukum.

Kami juga melihat contoh-contoh baru dari akademisi dan industri dari waktu ke waktu. Misalnya, Charles Borderie dari Lettria memberikan contoh komparatif metode "vektor saja" dan "vektor + GraphRAG"; GraphRAG mengandalkan alur kerja text-to-graph berbasis LLM untuk mengatur 10.000 artikel keuangan ke dalam grafik pengetahuan :



Metode khusus pencari vs. metode pencarian grafik

Terlihat bahwa dibandingkan menggunakan RAG biasa, penggunaan GraphRAG tidak hanya dapat meningkatkan kualitas jawaban, tetapi juga mengurangi jumlah token pada jawabannya hingga sepertiganya.

Mari kita ambil contoh lain dari Writer. Mereka baru-baru ini menerbitkan laporan benchmark RAG berdasarkan kerangka RobustQA, yang membandingkan metode berbasis GraphRAG dengan alat serupa lainnya. Skor yang diperoleh GraphRAG adalah 86%, yang secara signifikan lebih baik dibandingkan metode lain (berkisar antara 33% hingga 76%), namun memiliki kinerja latensi yang serupa atau lebih baik.



Hasil evaluasi akurasi dan waktu respon metode RAG

GraphRAG membantu berbagai aplikasi AI generatif. Grafik pengetahuan membuka cara untuk membuat hasil AI generatif lebih akurat dan berguna.

2. Peningkatan pemahaman data dan iterasi yang lebih cepat

Grafik pengetahuan bersifat intuitif, baik secara konseptual maupun visual. Menjelajahi grafik pengetahuan sering kali menghasilkan wawasan baru.

Banyak pengguna grafik pengetahuan telah membagikan hasil yang tidak terduga ini: setelah mereka berinvestasi dalam menyelesaikan grafik pengetahuan mereka sendiri, hal ini dapat membantu mereka membangun dan men-debug aplikasi AI generatif mereka dengan cara yang tidak terduga. Salah satu alasannya adalah jika Anda melihat data dalam bentuk grafik, Anda dapat melihat bahwa data yang mendasari aplikasi ini menyajikan gambaran data yang jelas.

Grafik memungkinkan Anda menelusuri jawaban, menemukan data, dan menelusuri rantai sebab akibat di sepanjang prosesnya.

Mari kita lihat contoh di atas mengenai kekurangan lithium. Jika Anda memvisualisasikan vektornya, Anda akan mendapatkan sesuatu seperti gambar di bawah, tetapi dengan lebih banyak baris dan kolom.



Visualisasi vektor

Dan jika Anda mengubah data menjadi grafik, Anda dapat memahaminya dengan cara yang tidak dapat dipahami oleh representasi vektor.

Berikut ini adalah contoh dari webinar LlamaIndex baru-baru ini, yang menunjukkan bagaimana mereka menggunakan hubungan "MENTIONS" untuk mengekstrak potongan kata yang divektorisasi (grafik kosakata) dan LLM untuk mengekstrak grafik entitas (grafik domain) dan menghubungkan kedua Kemampuan:



Ekstrak peta kosakata dan peta domain

(Ada juga banyak contoh penggunaan alat seperti Langchain, Haystack, dan SpringAI.)

Anda dapat melihat struktur data yang kaya dalam diagram ini dan membayangkan kemungkinan pengembangan dan debugging baru yang dimungkinkannya. Setiap bagian data memiliki nilainya sendiri, dan struktur itu sendiri menyimpan serta menyampaikan makna tambahan yang dapat Anda gunakan untuk membuat aplikasi Anda lebih cerdas.

Ini bukan hanya visualisasi. Ini juga tentang memungkinkan struktur data Anda menyampaikan dan menyimpan makna. Berikut reaksi seorang pengembang dari perusahaan fintech ternama, hanya seminggu setelah mereka memperkenalkan grafik pengetahuan ke dalam alur kerja RAG:



Reaksi pengembang terhadap GraphRAG

Reaksi pengembang ini sangat konsisten dengan hipotesis “test-driven development”, yaitu memverifikasi (tetapi tidak mempercayai) apakah jawabannya benar. Secara pribadi, saya akan merasa ngeri jika diminta memberikan 100% otonomi saya kepada AI yang pengambilan keputusannya tidak jelas. Lebih khusus lagi, bahkan jika Anda bukan orang yang percaya pada kiamat AI, Anda akan setuju: jika Anda tidak dapat memetakan kata-kata atau dokumen yang terkait dengan "Apple, Inc." ke perusahaan "Apple Corps" (yang merupakan dua hal yang sangat berbeda), memang akan sangat bernilai. Karena pada akhirnya datalah yang mendorong keputusan AI generatif, evaluasi dan memastikan kebenaran data merupakan hal yang paling penting.

3. Tata Kelola: Penjelasan, Keamanan, dan Lainnya

Semakin besar dampak keputusan AI generatif, semakin Anda perlu meyakinkan orang-orang yang bertanggung jawab jika keputusan tersebut salah. Ini biasanya melibatkan audit setiap keputusan. Hal ini memerlukan catatan keputusan yang baik dan dapat diandalkan. Tapi ini tidak cukup. Saat mengambil atau membatalkan suatu keputusan, Anda juga perlu menjelaskan alasan di baliknya.

LLM sendiri tidak melakukan hal ini dengan baik. Ya, Anda dapat merujuk pada dokumentasi yang digunakan untuk mengambil keputusan ini. Namun dokumen-dokumen ini tidak menjelaskan keputusan itu sendiri - apalagi LLM yang menjadi sumbernya. Grafik pengetahuan berada pada level yang berbeda, membuat logika penalaran AI generatif lebih jelas dan memudahkan interpretasi masukan.

Mari kita lanjutkan dengan contoh di atas: Charles dari Lettria memuat entitas yang diekstraksi dari 10.000 artikel keuangan ke dalam grafik pengetahuan, dan menggunakan LLM untuk mengeksekusi GraphRAG. Kami melihat bahwa hal ini memberikan jawaban yang lebih baik. Mari kita lihat datanya:



Memuat entitas yang diekstraksi dari 10.000 artikel keuangan ke dalam grafik pengetahuan

Pertama, anggap data Anda sebagai grafik. Selain itu, kami dapat menavigasi dan menanyakan data, serta merevisi dan memperbaruinya kapan saja. Keuntungan tata kelola adalah lebih mudahnya melihat dan mengaudit "model dunia" dari data ini. Penggunaan grafik memungkinkan orang yang bertanggung jawab untuk memahami alasan di balik keputusan tersebut lebih besar dibandingkan menggunakan versi vektor dari data yang sama.

Dalam hal memastikan kualitas, jika Anda dapat memasukkan data Anda ke dalam grafik pengetahuan, akan lebih mudah untuk menemukan kesalahan dan kejutan serta melacaknya kembali ke sumbernya. Anda juga dapat memperoleh informasi asal dan keyakinan dalam grafik, yang kemudian dapat digunakan dalam perhitungan dan interpretasi. Anda tidak bisa melakukan hal ini hanya dengan versi vektor dari data yang sama, dan seperti yang telah kita bahas sebelumnya, data yang divektorkan sulit dipahami oleh orang rata-rata (dan bahkan non-rata-rata).

Grafik pengetahuan juga dapat meningkatkan keamanan dan privasi secara signifikan.

Keamanan dan privasi seringkali tidak terlalu penting ketika membuat prototipe, namun sangat penting jika ingin dibangun menjadi sebuah produk. Dalam industri yang diatur seperti perbankan atau layanan kesehatan, akses data setiap karyawan bergantung pada jabatan mereka.

Baik itu LLM atau database vektor, tidak ada cara yang baik untuk membatasi cakupan akses data. Grafik pengetahuan dapat memberikan solusi yang baik, menggunakan kontrol izin untuk mengatur cakupan database yang dapat diakses oleh peserta, mencegah mereka melihat data yang tidak boleh mereka lihat. Berikut ini adalah kebijakan keamanan sederhana yang dapat menerapkan kontrol izin terperinci dalam grafik pengetahuan:



Strategi keamanan sederhana yang dapat diterapkan dalam grafik pengetahuan

Buat grafik pengetahuan

Apa yang diperlukan untuk membangun grafik pengetahuan? Langkah pertama adalah memahami dua grafik yang paling relevan dengan aplikasi AI generatif.

Grafik domain mewakili model dunia yang relevan dengan aplikasi saat ini. Berikut ini contoh sederhananya:



Peta domain

Grafik leksikal adalah grafik struktur dokumen. Grafik kosakata paling dasar terdiri dari simpul-simpul yang terdiri dari potongan kata:



peta kosakata

Orang sering memperluasnya hingga mencakup hubungan antara potongan, objek dokumen (seperti tabel), bab, paragraf, nomor halaman, nama atau nomor dokumen, koleksi, sumber, dll. Anda juga dapat menggabungkan peta domain dan peta kosakata, seperti yang ditunjukkan di bawah ini:



Gabungkan lapisan domain dan lapisan kosakata

Membuat peta kosakata sangat sederhana, terutama hanya penguraian dan pengelompokan sederhana. Sedangkan untuk peta domain, terdapat jalur pembuatan yang berbeda-beda bergantung pada sumber datanya (dari sumber data terstruktur, sumber data tidak terstruktur, atau keduanya). Untungnya, alat untuk membuat grafik pengetahuan dari sumber data tidak terstruktur berkembang pesat.

Misalnya, Pembuat Grafik Pengetahuan Neo4j yang baru dapat secara otomatis membuat grafik pengetahuan menggunakan dokumen PDF, halaman web, video YouTube, dan artikel Wikipedia. Seluruh prosesnya sesederhana beberapa klik tombol, dan Anda dapat memvisualisasikan dan menanyakan peta domain dan kosakata dari teks yang Anda masukkan. Alat ini sangat kuat dan menarik, dan dapat menurunkan ambang batas untuk membuat grafik pengetahuan.

Sedangkan untuk data terstruktur (seperti data terstruktur yang disimpan perusahaan Anda tentang pelanggan, produk, lokasi geografis, dll.), dapat langsung dipetakan ke dalam grafik pengetahuan. Misalnya, untuk data terstruktur, yang paling sering disimpan dalam database relasional, beberapa alat standar dapat digunakan untuk memetakan hubungan ke dalam grafik berdasarkan aturan yang terbukti dan andal.

Gunakan grafik pengetahuan

Setelah Anda memiliki grafik pengetahuan, Anda dapat membuat GraphRAG. Ada banyak kerangka kerja yang dapat dipilih, seperti LlamaIndex Property Graph Index, Langchain terintegrasi Neo4j dan versi terintegrasi Haystack. Bidang ini berkembang pesat, namun kini metode pemrogramannya menjadi sangat sederhana.

Hal yang sama juga berlaku untuk pembuatan grafik. Alat seperti Neo4j Importer (yang dapat mengimpor dan memetakan data tabular ke dalam grafik melalui antarmuka grafis) dan Neo4j Knowledge Graph Builder yang disebutkan di atas kini telah muncul. Gambar di bawah merangkum langkah-langkah untuk membuat grafik pengetahuan.



Secara otomatis membuat grafik pengetahuan untuk AI generatif

Menggunakan grafik pengetahuan juga dapat memetakan pertanyaan bahasa manusia ke dalam kueri database grafik. Neo4j telah merilis alat sumber terbuka, NeoConverse, yang membantu menggunakan bahasa alami untuk menanyakan grafik pengetahuan: https://neo4j.com/labs/genai-ecosystem/neoconverse/

Meskipun diperlukan beberapa pembelajaran untuk mulai menggunakan grafik, kabar baiknya adalah seiring berkembangnya alat, hal ini menjadi lebih mudah.

Ringkasan: GraphRAG adalah masa depan RAG yang tak terelakkan

Keterampilan komputasi dan linguistik berbasis kata yang melekat pada LLM dikombinasikan dengan RAG berbasis vektor dapat memberikan hasil yang sangat baik. Untuk memperoleh hasil yang baik secara stabil, perlu melampaui level string dan membangun model dunia di atas model kata. Demikian pula, Google menemukan bahwa untuk menguasai penelusuran, mereka harus lebih dari sekadar analisis teks dan memetakan hubungan antara hal-hal yang diwakili oleh string. Kita mulai melihat pola yang sama muncul di dunia AI. Mode ini adalah GraphRAG.

Kurva perkembangan teknologi berbentuk S: setelah satu teknologi mencapai puncaknya, teknologi lain akan mendorong kemajuan dan melampaui teknologi sebelumnya. Seiring berkembangnya AI generatif, persyaratan untuk aplikasi terkait juga akan meningkat - mulai dari jawaban berkualitas tinggi hingga kemampuan menjelaskan hingga kontrol yang cermat atas hak akses data, privasi dan keamanan, nilai grafik pengetahuan juga akan meningkat.



Evolusi AI generatif

Aplikasi AI generatif Anda berikutnya mungkin akan menggunakan grafik pengetahuan.

Tautan referensi: https://neo4j.com/blog/graphrag-manifesto/