Microsoftin avoimen lähdekoodin GraphRAG:n suosio kasvaa räjähdysmäisesti, onko generatiivinen tekoäly siirtynyt tietokaavioiden aikakauteen?

2024-07-15

Koneen sydänraportti

Toimittaja: Panda W

Tietograafi ei koskaan vetäydy ympäristöstä!

LLM on erittäin voimakas, mutta siinä on myös joitain ilmeisiä puutteita, kuten hallusinaatio-ongelmat, huono tulkinta, epäonnistuminen ongelman painopisteen ymmärtämisessä, yksityisyys- ja turvallisuusongelmat jne. Retrieval-augmented Generation (RAG) voi merkittävästi parantaa LLM:n sukupolven laatua ja tulosten hyödyllisyyttä.

Tämän kuun alussa Microsoft julkaisi GraphRAG:n, tehokkaimman avoimen lähdekoodin RAG-tietokantaratkaisun. Projektista tuli suosittu heti verkkoon siirtymisen jälkeen, ja nyt tähtien määrä on saavuttanut 10,5 000.

Projektin osoite: https://github.com/microsoft/graphrag
Virallinen dokumentaatio: https://microsoft.github.io/graphrag/

Jotkut sanovat, että se on tehokkaampi kuin tavallinen RAG:

GraphRAG käyttää LLM:ää tietokaavioiden luomiseen, mikä voi parantaa merkittävästi kysymysten ja vastausten suorituskykyä suoritettaessa monimutkaisten tietojen dokumenttianalyysiä, erityisesti kun käsitellään yksityisiä tietoja.

Vertailutulokset GraphRAG:n ja perinteisen RAG:n välillä

Nykyään RAG on tekniikka, joka käyttää todellista tietoa LLM-tulosten parantamiseen ja on tärkeä osa useimpia LLM-pohjaisia työkaluja. Mutta Baseline RAG ei toimi täydellisesti joissakin tilanteissa. Esimerkiksi:

Perustason RAG kamppailee pisteiden yhdistämisessä. Tämä tapahtuu, kun kysymykseen vastaaminen edellyttää erilaisten tietojen läpikäymistä jaettujen attribuuttien kautta, jotta saadaan uusia yhdistettyjä näkemyksiä.
Perustason RAG toimii huonosti, kun pyydetään ymmärtämään kattavasti tiivistetyt semanttiset käsitteet suurissa tietojoukoissa tai jopa yhdessä suuressa asiakirjassa.

Microsoftin ehdottama GraphRAG käyttää LLM:ää tietograafin luomiseen syöttötekstikirjaston perusteella. Tämä kaavio yhdistää yhteisön yhteenvedot ja kaavioiden koneoppimisen tulokset parantamaan vihjeitä kyselyn aikana. GraphRAG näyttää merkittäviä parannuksia molempien kysymystyyppien vastaamisessa, mikä osoittaa suorituskykyä parempia kuin aikaisemmat menetelmät yksityisissä tietojoukoissa.

Kuitenkin, kun kaikki ymmärsivät GraphRAG:ia paremmin, he huomasivat, että sen periaatteita ja sisältöä oli todella vaikea ymmärtää.

Äskettäin Philip Rathle, Neo4j Companyn teknologiajohtaja, julkaisi blogiartikkelin "GraphRAG-manifesti: Tiedon lisääminen generatiiviseen tekoälyyn".

Hän sanoi: "Seuraava generatiivinen tekoälysovelluksesi käyttää todennäköisesti tietokaaviota."

Neo4j:n teknologiajohtaja Philip Rathle

Lue tämä artikkeli alla.

Ymmärrämme tämän: tehdäksesi jotain todella merkityksellistä generatiivisen tekoälyn avulla, et voi luottaa vain autoregressiivisiin LLM:ihin, jotka tekevät päätökset puolestasi.

Tiedän, mitä ajattelet: "Käytä RAG:ta tai hienosäädä tai odota GPT-5:tä."

Joo. Tekniikat, kuten vektoripohjainen haun lisäyksen generointi (RAG) ja hienosäätö, voivat auttaa sinua. Ja ne ratkaisevat tietyt käyttötapaukset riittävän hyvin. Mutta on olemassa yhden tyyppinen käyttötapa, joka pysäyttää kaikki nämä tekniikat.

Monissa ongelmissa vektoripohjaisen RAG:n (ja hienosäädön) ratkaisuna on lähinnä lisätä oikean vastauksen todennäköisyyttä. Mutta kumpikaan tekniikka ei anna varmuutta oikeasta vastauksesta. Niistä puuttuu usein konteksti ja ne vaikeuttavat yhteyden muodostamista johonkin, jonka jo tiedät. Lisäksi nämä työkalut eivät anna vihjeitä siitä, miksi tietty päätös tehtiin.

Käännetään huomiomme takaisin vuoteen 2012, jolloin Google julkaisi toisen sukupolven hakukoneensa ja julkaisi ikonisen blogikirjoituksen "Introducing the Knowledge Graph: things, not strings". He havaitsivat, että jos he erilaisten merkkijonojen käsittelyn lisäksi käyttäisivät tietograafia järjestämään kaikki merkkijonoina esitetyt asiat verkkosivulla, se voisi johtaa valtavaan parannukseen haussa.

Nyt samanlainen malli on nousemassa generatiivisen tekoälyn alalla. Monet generatiiviset tekoälyprojektit törmäsivät seinään, jossa niiden tulosten laatua rajoittaa se, että ratkaisu käsittelee merkkijonoja, ei asioita.

Eteenpäin nykypäivään, huippuluokan tekoälyinsinöörit ja akateemiset tutkijat ovat löytäneet uudelleen sen, minkä Google kerran löysi: tämän pullonkaulan murtamisen salaisuus on tietokaavio. Toisin sanoen se on tuoda asioista tietoa tilastopohjaiseen tekstitekniikkaan. Toimintatapa on samanlainen kuin muut RAG:t, paitsi että vektori-indeksoinnin lisäksi se kutsuu myös tietograafia. Eli: GraphRAG! (GraphRAG = Knowledge Graph + RAG)

Tämän artikkelin tavoitteena on tarjota kattava ja ymmärrettävä esittely GraphRAG:iin. Tutkimukset osoittavat, että tietojesi rakentaminen tietokaavioksi ja sen käyttäminen RAG:n kautta voi tuoda sinulle useita tehokkaita etuja. On olemassa monia tutkimuksia, jotka osoittavat, että GraphRAG voi vastata useimpiin tai kaikkiin LLM:n esittämiin kysymyksiin paremmin kuin RAG, joka käyttää vain tavallisia vektoreita.

Tämä etu yksin riittää edistämään suuresti GraphRAG:n käyttöönottoa.

Mutta se ei pääty tähän, koska tiedot näkyvät sovellusta rakennettaessa, se on myös helpompi kehittää.

Kolmas GraphRAG:n etu on se, että sekä ihmiset että koneet ymmärtävät kuvaajia hyvin ja voivat tehdä niiden perusteella päätelmiä. Tämän seurauksena sovellusten rakentaminen GraphRAG:n avulla on yksinkertaisempaa ja tuottaa parempia tuloksia, mutta on myös helpompi tulkita ja tarkastaa (kriittinen monilla toimialoilla).

Uskon, että GraphRAG korvaa vain vektori-RAG:n oletusarvoisena RAG-arkkitehtuurina useimmissa käyttötapauksissa. Tämä artikkeli selittää miksi.

Mikä on kartta?

Ensin meidän on selvitettävä, mikä graafi on.

Graafi, joka tunnetaan myös nimellä kaavio, käännetään usein "kaavioksi", mutta se on siksi helppo sekoittaa käsitteisiin, kuten kuva ja kuva. Eron helpottamiseksi tässä artikkelissa käytetään vain käännösmenetelmää "图图".

Kaavio näyttää todennäköisesti tältä:

Esimerkki kartasta

Vaikka tätä kuvaa käytetään usein esimerkkinä tietograafista, sen lähdettä ja tekijää ei enää tunneta.

tai tämä:

"Game of Thrones" -hahmosuhdekartta, William Lyon

tai tämä:

Lontoon metro kartta. Hauska tosiasia: Transport for London otti äskettäin käyttöön kaaviopohjaisen digitaalisen kaksoissovelluksen parantaakseen häiriötilanteisiin reagointikykyä ja vähentääkseen ruuhkia.

Toisin sanoen kartta ei ole kaavio.

Tässä emme puhu liikaa määrittelykysymyksistä olettaen, että ymmärrät jo, mikä kartta on.

Jos ymmärrät yllä olevat kuvat, voit luultavasti nähdä, kuinka taustalla olevaa tietograafidataa (tallennettuna graafitietokantaan) voidaan tiedustella ja käyttää osana RAG-työnkulkua. Se on GraphRAG.

Kaksi tiedon esittämisen muotoa: vektorit ja graafit

Tyypillisen RAG:n ydin on vektorihaku, jossa etsitään ja palautetaan käsitteellisesti samankaltaisia tekstejä ehdokaskirjoituksista syöttötekstilohkojen perusteella. Tällainen automaatio toimii hyvin, ja jopa perushaut ovat hyödyllisiä.

Mutta joka kerta kun teet haun, et ehkä ole ajatellut, mikä vektori on tai kuinka samankaltaisuuslaskenta toteutetaan. Seuraavaksi katsotaan Applea. Se esittelee erilaisia muotoja ihmisen näkökulmasta, vektoriperspektiivistä ja graafisesta näkökulmasta:

Apple ihmisen, vektorin ja karttanäkökulmasta

Ihmisille omenan esitys on monimutkainen ja moniulotteinen, eikä sen ominaisuuksia voida täysin kuvata paperilla. Täällä voimme runollisesti kuvitella, että tämä punainen valokuva voi edustaa omenaa havainnollisesti ja käsitteellisesti.

Tämän omenan vektoriesitys on taulukko. Vektorien taika on, että ne kukin vangitsevat vastaavan tekstinsä olemuksen koodatussa muodossa. Mutta RAG:n yhteydessä vektoreita tarvitaan vain, kun sinun on määritettävä, kuinka samankaltainen tekstikappale on toisen tekstin kanssa. Voit tehdä tämän suorittamalla samankaltaisuuslaskelman ja tarkistamalla vastaavuuden. Mutta jos haluat ymmärtää vektorin sisällä olevan merkityksen, ymmärtää, mitä tekstissä on esitetty, ja saada käsityksen sen suhteesta laajempaan kontekstiin, vektoriesitys ei auta sinua.

Sitä vastoin tietokaaviot edustavat maailmaa deklaratiivisessa muodossa - AI-kentän terminologiassa eli symbolisesti. Siksi sekä ihmiset että koneet voivat ymmärtää tietograafin ja tehdä päättelyjä sen perusteella. Tämä on tärkeää ja mainitaan myöhemmin.

Lisäksi voit tiedustella, visualisoida, merkitä, muokata ja laajentaa tietokaaviota. Tietograafi on maailmanmalli, joka voi edustaa maailmaa nykyisellä työkentälläsi.

GraphRAG ja RAG

Nämä kaksi eivät kilpaile keskenään. RAG:lle sekä vektorikyselyt että graafikyselyt ovat hyödyllisiä. Kuten LlamaIndexin perustaja Jerry Liu huomauttaa: GraphRAG:ia ajatellen on hyödyllistä sisällyttää vektoreita. Tämä eroaa "vain vektoreihin perustuvasta RAG:sta", joka perustuu täysin tekstin upotusten samankaltaisuuteen.

Pohjimmiltaan GraphRAG on eräänlainen RAG, paitsi että sen hakupolku sisältää tietograafin. Kuten alla näet, GraphRAGin ydinskeema on hyvin yksinkertainen. Sen arkkitehtuuri on sama kuin vektoreita käyttävä RAG, mutta sisältää tietograafikerroksen.

GraphRAG-tila

GraphRAGin yleinen malli

Kuten näet, kaaviokysely käynnistettiin yllä olevassa kuvassa. Se voi valinnaisesti sisältää vektorin samankaltaisuuskomponentin. Voit tallentaa kaavion ja vektorit kahteen eri tietokantaan tai käyttää vektorihakua tukevaa graafitietokantaa, kuten Neo4j.

Alla on yleinen malli GraphRAG:n käyttöön:

1. Suorita vektorihaku tai avainsanahaku löytääksesi joukon alkusolmuja;

2. Kulje graafia ja tuo takaisin tietoja relevanteista solmuista;

3. (Valinnainen) Käytä kaaviopohjaisia sijoitusalgoritmeja, kuten PageRank, asiakirjojen uudelleenjärjestykseen

Erilaiset käyttötapaukset johtavat erilaisiin käyttötapoihin. Kuten kaikki tämän päivän tekoälykentän tutkimussuunnat, myös GraphRAG on tutkimusrikas ala, jossa uusia löytöjä syntyy joka viikko.

GraphRAGin elinkaari

GraphRAG:ia käyttävä generatiivinen tekoäly noudattaa myös minkä tahansa muun RAG-sovelluksen mallia. Alussa on "luo kaavio" -vaihe:

GraphRAGin elinkaari

Kuvaajan luominen on samanlaista kuin asiakirjan lohkominen ja sen lataaminen vektoritietokantaan. Työkalujen kehitys on tehnyt karttojen luomisesta melko helppoa. Tässä kolme hyvää uutista:

1. Kartat ovat erittäin iteratiivisia - voit aloittaa "vähimmäiskäyttökelpoisella kartalla" ja laajentaa sen pohjalta.

2. Kun tiedot on lisätty tietograafiin, sitä voidaan helposti kehittää. Voit lisätä useampia datatyyppejä saadaksesi ja hyödyntääksesi tietoverkkovaikutuksia. Voit myös parantaa tietojesi laatua lisätäksesi sovelluksesi arvoa.

3. Ala kehittyy nopeasti, mikä tarkoittaa, että työkalujen kehittyessä karttojen luominen tulee vain helpommaksi ja helpommaksi.

Kartan luontivaiheiden lisääminen edelliseen kuvaan johtaa alla olevan kuvan mukaiseen työnkulkuun:

Lisää kartan luontivaiheet

Katsotaanpa, mitä etuja GraphRAG voi tuoda.

Miksi käyttää GraphRAGia?

Verrattuna pelkkään vektorimuotoiseen RAG:iin, GraphRAG:n edut jaetaan pääasiassa kolmeen luokkaan:

1. Parempi tarkkuus ja kattavammat vastaukset (ajoaika/tuotantoetu)

2. Kun tietokaavio on luotu, on helpompi rakentaa ja ylläpitää RAG-sovelluksia (kehitysaikaetu)

3. Parempi selitettävyys, jäljitettävyys ja kulunvalvonta (hallinnon edut)

Tässä on perusteellinen katsaus näihin etuihin.

1. Lisää tarkkuutta ja hyödyllisempiä vastauksia

GraphRAGin ensimmäinen etu (ja välittömimmin näkyvä) on sen vastausten korkeampi laatu. Olipa kyseessä tiedemaailma tai teollisuus, voimme nähdä paljon todisteita tämän havainnon tukemisesta.

Kuten tämä esimerkki tietokatalogiyritykseltä Data.world. Vuoden 2023 lopussa he julkaisivat tutkimusraportin, joka osoitti, että GraphRAG voisi parantaa LLM-vastausten tarkkuutta keskimäärin 3 kertaa 43 liiketoimintakysymyksessä. Tämä vertailututkimus tarjoaa todisteita siitä, että tietokaaviot voivat merkittävästi parantaa vastaustarkkuutta.

Tietograafi parantaa LLM-vastauksen tarkkuutta 54,2 prosenttiyksikköä, mikä on noin 3 kertaa.

Microsoft toimitti myös joukon todisteita, mukaan lukien helmikuun 2024 tutkimusblogi "GraphRAG: Unlocking LLM Discovery on narrative private data" ja siihen liittyvä tutkimuspaperi "From Local to Global: A Graph RAG Approach to Query-Focused Summarization" 》Ja ohjelmisto: https://github.com/microsoft/graphrag (yllä alussa mainittu GraphRAG).

Niiden joukossa he havaitsivat seuraavat kaksi ongelmaa perusviivan RAG:n kanssa vektoreita käyttämällä:

Perustason RAG vaikeuttaa pisteiden yhdistämistä. Eri informaation syntetisoimiseksi uusien oivallusten saamiseksi eri informaatiofragmentit on kuljetettava jaettujen attribuuttien kautta.
Perustason RAG toimii huonosti, kun pyydetään ymmärtämään kattavasti semanttisia käsitteitä, jotka on tiivistetty induktiivisesti suurista tietokokoelmista tai jopa yksittäisistä suurista asiakirjoista.

Microsoft havaitsi: "Käyttämällä LLM:n luomaa tietokaaviota GraphRAG voi parantaa merkittävästi RAG:n "haku"-osaa ja täyttää konteksti-ikkunaan osuvampaa sisältöä, jolloin saadaan parempia vastauksia ja todisteita. ” He havaitsivat myös, että muihin vaihtoehtoisiin menetelmiin verrattuna GraphRAG vaatii 26–97 % vähemmän tokeneita, joten se ei ainoastaan anna parempia vastauksia, vaan sillä on myös alhaisemmat kustannukset ja parempi skaalautuvuus.

Tarkkuutta tutkiessamme tiedämme, että vaikka on tärkeää, että vastaus on oikea, sen on myös oltava hyödyllinen. GraphRAGin on havaittu tekevän vastauksista tarkempia, mutta myös monipuolisempia, täydellisempiä ja hyödyllisempiä.

LinkedInin tuore artikkeli "Retrieval-Augmented Generation with Knowledge Graphs for Customer Service Question Answering" on erinomainen esimerkki GraphRAGin vaikutuksesta sen asiakaspalvelusovelluksiin. GraphRAG paransi asiakaspalveluvastaustensa tarkkuutta ja monipuolisuutta tehden niistä hyödyllisempiä ja lyhensi kunkin ongelman ratkaisemiseen kuluvaa mediaaniaikaa 28,6 %.

Neo4j:n Generative AI -työpajalla on samanlainen esimerkki. Kuten alla näkyy, tämä on vastaus, joka saadaan "vektori + GraphRAG"- ja "vain vektori" -menetelmillä SEC-tiedostoille:

"Vain vektori"- ja "vektori + GraphRAG" -menetelmien vertailu

Huomaa ero "kuvaile niiden yritysten ominaisuuksia, joihin litiumin puute voi vaikuttaa" ja "luettelo tietyt yritykset, joihin tämä saattaa vaikuttaa" välillä. Jos olet sijoittaja, joka haluaa tasapainottaa salkkuaan markkinoiden muutosten vuoksi, tai yritys, joka haluaa kohdistaa toimitusketjunsa uudelleen luonnonkatastrofin vuoksi, yllä olevan kaavion oikealla puolella olevat tiedot ovat varmasti paljon tärkeämpiä kuin tiedot. vasemmalla. Tässä molemmat vastaukset ovat oikeita. Mutta oikealla oleva vastaus on selvästi hyödyllisempi.

Jesus Barrasan Going Meta Episode 23 antaa toisen loistavan esimerkin: aloitetaan sanakartalla työskennelläksesi juridisten asiakirjojen kanssa.

Näemme myös ajoittain uusia esimerkkejä akateemisesta maailmasta ja teollisuudesta. Esimerkiksi Charles Borderie of Lettria antoi vertailevan esimerkin "vain vektori"- ja "vektori + GraphRAG" -menetelmistä. GraphRAG perustuu LLM-pohjaiseen tekstistä kuvaajaksi -työnkulkuun järjestääkseen 10 000 talousartikkelia tietokaavioksi:

Vain hakumenetelmät vs. kaaviohakumenetelmät

Voidaan nähdä, että verrattuna tavalliseen RAG:n käyttöön GraphRAG:n avulla voidaan paitsi parantaa vastausten laatua, myös vähentää vastauksissa olevien merkkien määrää kolmanneksella.

Otetaan toinen esimerkki Writeristä. He julkaisivat äskettäin RobustQA-kehykseen perustuvan RAG-benchmark-raportin, jossa verrattiin GraphRAG-pohjaista menetelmää muihin vastaaviin työkaluihin. GraphRAG:n saama pistemäärä on 86 %, mikä on huomattavasti parempi kuin muut menetelmät (vaihtelee 33 % - 76 %), mutta latenssisuorituskyky on sama tai parempi.

RAG-menetelmän tarkkuus- ja vasteajan arviointitulokset

GraphRAG auttaa monia luovia tekoälysovelluksia. Tietokaaviot avaavat tien tehdä generatiivisen tekoälyn tuloksista tarkempia ja hyödyllisempiä.

2. Parannettu tietojen ymmärtäminen ja nopeampi iterointi

Tietokaaviot ovat intuitiivisia sekä käsitteellisesti että visuaalisesti. Tietokaavioiden tutkiminen johtaa usein uusiin oivalluksiin.

Monet tietograafin käyttäjät ovat jakaneet tämän odottamattoman tuloksen: kun he investoivat oman tietokaavionsa täydentämiseen, se voi auttaa heitä rakentamaan ja korjaamaan omia generatiivisia tekoälysovelluksia odottamattomalla tavalla. Osa syynä on se, että jos voit tarkastella tietoja kaavion muodossa, voit nähdä, että näiden sovellusten taustalla oleva data esittää elävän datakuvan.

Kaavioiden avulla voit jäljittää vastauksia, etsiä tietoja ja jäljittää syy-ketjun matkan varrella.

Katsotaanpa yllä olevaa esimerkkiä litiumin puutteesta. Jos visualisoit sen vektorin, saat jotain alla olevan kuvan kaltaista, mutta enemmän rivejä ja sarakkeita.

Vektorivisualisointi

Ja jos muunnat tiedot kaavioksi, voit ymmärtää sen tavalla, jota vektoriesitys ei voi.

Seuraavassa on esimerkki äskettäisestä LlamaIndex-verkkoseminaarista, joka osoittaa, kuinka he käyttävät "MENTIONS"-suhdetta vektorisoitujen sanapalojen poimimiseen (sanastokaavio) ja LLM-suhdetta kokonaisuuksien kaavion (domain graph) erottamiseen ja näiden kahden kyvyn yhdistämiseen:

Pura sanastokartta ja verkkotunnuskartta

(On myös monia esimerkkejä työkaluista, kuten Langchain, Haystack ja SpringAI.)

Voit nähdä tämän kaavion tietojen rikkaan rakenteen ja kuvitella sen mahdollistamia uusia kehitys- ja virheenkorjausmahdollisuuksia. Jokaisella tiedolla on oma arvonsa, ja itse rakenne tallentaa ja välittää lisämerkityksiä, joiden avulla voit tehdä sovelluksestasi älykkäämmän.

Se ei ole vain visualisointia. Tämä koskee myös tietorakenteiden mahdollistamista välittää ja tallentaa merkitystä. Tässä on tunnetun fintech-yrityksen kehittäjän reaktio vain viikko sen jälkeen, kun he ottivat tietokaaviot RAG-työnkulkuun:

Kehittäjän reaktio GraphRAG:iin

Tämä kehittäjän reaktio on hyvin yhdenmukainen "testilähtöisen kehityksen" hypoteesin kanssa, jonka tarkoituksena on varmistaa (mutta ei luottaa), onko vastaus oikea. Henkilökohtaisesti olisin kauhuissani, jos minua pyydettäisiin antamaan 100 % itsenäisyydestäni tekoälylle, jonka päätöksenteko on täysin läpinäkymätöntä. Tarkemmin sanottuna, vaikka et olisi tekoälyn tuomiopäivän uskovainen, olet samaa mieltä: jos et pysty yhdistämään "Apple, Inc:iin" liittyviä sanoja tai asiakirjoja "Apple Corps" -yritykseen (jotka ovat kaksi täysin eri asiaa), tulee olemaan todella arvokas. Koska data on viime kädessä se, joka ohjaa generatiivisia tekoälypäätöksiä, on luultavasti kriittisintä arvioida ja varmistaa tietojen oikeellisuus.

3. Hallinto: Selittävyys, turvallisuus ja paljon muuta

Mitä suurempi generatiivisen tekoälypäätöksen vaikutus on, sitä enemmän sinun on vakuutettava ihmiset, jotka ovat viime kädessä vastuussa, jos päätös menee pieleen. Tämä edellyttää yleensä jokaisen päätöksen auditointia. Tämä edellyttää luotettavaa ja toistettavaa kirjaa hyvistä päätöksistä. Mutta tämä ei riitä. Päätöstä tehdessäsi tai luopuessasi sinun tulee myös selittää sen taustalla olevat syyt.

LLM itse ei tee tätä hyvin. Kyllä, voit viitata asiakirjoihin, joita käytettiin tämän päätöksen tekemiseen. Mutta nämä asiakirjat eivät selitä itse päätöstä - puhumattakaan siitä, että LLM teki lähteet. Tietokaaviot ovat kokonaan toisella tasolla, mikä tekee generatiivisen tekoälyn päättelylogiikasta selkeämmän ja helpottaa syötteiden tulkintaa.

Jatketaan yllä olevalla esimerkillä: Charles Lettriasta latasi 10 000 talousartikkelista poimittuja kokonaisuuksia tietograafiin ja käytti LLM:ää GraphRAG:n suorittamiseen. Näemme, että tämä tarjoaa parempia vastauksia. Katsotaanpa tietoja:

Lataa 10 000 talousartikkelista poimitut entiteetit tietokaavioon

Ajattele ensin tietojasi kaaviona. Lisäksi voimme navigoida ja tiedustella tietoja sekä tarkistaa ja päivittää niitä milloin tahansa. Hallinnon etuna on, että näiden tietojen "maailmamallin" tarkasteleminen ja tarkastaminen on paljon yksinkertaisempaa. Kaaviota käyttämällä on todennäköisempää, että viime kädessä vastuussa oleva henkilö ymmärtää päätöksen taustalla olevat perustelut, kuin käyttämällä saman datan vektoriversiota.

Laadun varmistamisen kannalta, jos voit laittaa tietosi tietokaavioon, on helpompi löytää virheet ja yllätykset ja jäljittää ne takaisin lähteeseensä. Voit myös saada kaaviosta lähtö- ja luottamustiedot, joita voidaan sitten käyttää laskelmissa ja tulkinnoissa. Et yksinkertaisesti voi tehdä tätä samoista tiedoista vain vektoriversiolla, ja kuten aiemmin keskustelimme, vektorisoitua dataa on vaikea ymmärtää keskiverto- (ja jopa ei-keskiverto) ihmisten.

Tietokaaviot voivat myös parantaa merkittävästi turvallisuutta ja yksityisyyttä.

Turvallisuus ja yksityisyys eivät usein ole kovin tärkeitä prototyyppiä rakennettaessa, mutta ne ovat tärkeitä, jos ne halutaan integroida tuotteeseen. Säännellyillä aloilla, kuten pankki- tai terveydenhuolto, jokaisen työntekijän pääsy tietoihin riippuu heidän tehtävästään.

Olipa kyseessä LLM tai vektoritietokanta, ei ole hyvää tapaa rajoittaa tietojen käyttöä. Tietokaaviot voivat tarjota hyvän ratkaisun, koska käyttöoikeuksien hallinnan avulla säännellään osallistujien käytettävissä olevien tietokantojen laajuutta, mikä estää heitä näkemästä tietoja, joita he eivät saa nähdä. Seuraavassa on yksinkertainen suojauskäytäntö, joka voi toteuttaa tarkkoja käyttöoikeuksia tietokaaviossa:

Yksinkertainen tietoturvastrategia, joka voidaan toteuttaa tietokaavioissa

Luo tietokaavio

Mitä tarvitaan tietograafin rakentamiseen? Ensimmäinen askel on ymmärtää kaksi generatiivisten tekoälysovellusten kannalta oleellisinta kuvaajaa.

Toimialuekaavio edustaa nykyisen sovelluksen kannalta relevanttia maailmanmallia. Tässä on yksinkertainen esimerkki:

Verkkotunnuksen kartta

Leksikaalinen graafi on asiakirjan rakenteen kuvaaja. Yleisin sanastokaavio koostuu solmuista, jotka koostuvat sanapaloista:

sanaston kartta

Ihmiset laajentavat sen usein koskemaan osien, asiakirjaobjektien (kuten taulukoiden), lukujen, kappaleiden, sivunumeroiden, asiakirjojen nimien tai numeroiden, kokoelmien, lähteiden jne. välisiä suhteita. Voit myös yhdistää verkkotunnuskarttoja ja sanastokarttoja alla olevan kuvan mukaisesti:

Yhdistä verkkotunnustaso ja sanastokerros

Sanastokartan luominen on hyvin yksinkertaista, pääasiassa vain yksinkertaista jäsentämistä ja paloittelua. Mitä tulee toimialuekarttaan, on olemassa erilaisia luontipolkuja datan lähteen mukaan (strukturoiduista tietolähteistä, strukturoimattomista tietolähteistä tai molemmista). Onneksi työkalut tietokaavioiden luomiseen jäsentämättömistä tietolähteistä kehittyvät nopeasti.

Esimerkiksi uusi Neo4j Knowledge Graph Builder voi luoda automaattisesti tietokaavioita PDF-dokumenteista, verkkosivuista, YouTube-videoista ja Wikipedia-artikkeleista. Koko prosessi on niin yksinkertainen kuin muutamalla napin painalluksella, ja voit visualisoida syöttämäsi tekstin toimialue- ja sanastokartat ja tehdä kyselyitä. Tämä työkalu on erittäin tehokas ja mielenkiintoinen, ja se voi huomattavasti alentaa kynnystä tietokaavioiden luomiselle.

Mitä tulee strukturoituihin tietoihin (kuten yrityksesi asiakkaista, tuotteista, maantieteellisistä sijainneista jne. tallentamat strukturoidut tiedot), ne voidaan kartoittaa suoraan tietokaavioon. Esimerkiksi strukturoidulle tiedolle, joka tallennetaan yleisimmin relaatiotietokantoihin, voidaan käyttää joitain vakiotyökaluja suhteiden kuvaamiseen kaavioiksi todistettujen ja luotettavien sääntöjen perusteella.

Käytä tietokaaviota

Kun sinulla on tietograafi, voit tehdä GraphRAG:n. Valittavana on monia kehyksiä, kuten LlamaIndex Property Graph Index, Langchain integroitu Neo4j ja Haystack integroitu versio. Tämä ala kehittyy nopeasti, mutta nyt ohjelmointimenetelmä on tulossa hyvin yksinkertaiseksi.

Sama pätee kuvaajien luomiseen, kuten Neo4j Importer (joka voi tuoda ja kartoittaa taulukkotietoja graafisiksi graafisiksi käyttöliittymiksi) ja edellä mainittu Neo4j Knowledge Graph Builder. Alla olevassa kuvassa on yhteenveto tietograafin rakentamisen vaiheista.

Luo automaattisesti tietokaavioita generatiivista tekoälyä varten

Tietokaavioiden avulla voidaan myös kartoittaa ihmiskielisiä kysymyksiä graafitietokantakyselyiksi. Neo4j on julkaissut avoimen lähdekoodin työkalun, NeoConversen, joka auttaa luonnollista kieltä etsimään tietokaavioita: https://neo4j.com/labs/genai-ecosystem/neoconverse/

Vaikka kaavioiden käytön aloittaminen vaatii hieman opettelua, hyvä uutinen on, että työkalujen kehittyessä se helpottuu.

Yhteenveto: GraphRAG on RAG:n väistämätön tulevaisuus

LLM:n luontainen sanapohjainen laskennallinen ja kielitaito yhdistettynä vektoripohjaiseen RAG-osaamiseen voi johtaa erittäin hyviin tuloksiin. Hyvien tulosten saavuttamiseksi vakaasti on välttämätöntä mennä merkkijonotason ulkopuolelle ja rakentaa maailmanmalli sanan mallin yläpuolelle. Samoin Google havaitsi, että voidakseen hallita haun, heidän täytyi mennä pelkkää tekstianalyysiä pidemmälle ja kartoittaa merkkijonojen edustamien asioiden väliset suhteet. Alamme nähdä saman kuvion nousevan tekoälymaailmaan. Tämä tila on GraphRAG.

Teknologian kehityskäyrä on S-muotoinen: yhden tekniikan saavuttaessa huippunsa toinen teknologia edistää edistystä ja ohittaa entisen. Generatiivisen tekoälyn kehittyessä myös niihin liittyvien sovellusten vaatimukset kasvavat – laadukkaista vastauksista selitettävyyteen datan käyttöoikeuksien, yksityisyyden ja turvallisuuden hienorakeiseen hallintaan, myös tietograafien arvo nousee.

Generatiivisen tekoälyn kehitys

Seuraava generatiivinen tekoälysovelluksesi käyttää todennäköisesti tietokaaviota.

Viitelinkki: https://neo4j.com/blog/graphrag-manifesto/

uutiset

Microsoftin avoimen lähdekoodin GraphRAG:n suosio kasvaa räjähdysmäisesti, onko generatiivinen tekoäly siirtynyt tietokaavioiden aikakauteen?

Johdanto

yhteystietoni