uutiset

Luopumalla manuaalisesta merkinnästä, AutoAlign-menetelmä tekee tietokaavioista täysin automatisoituja suurten mallien perusteella

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



AIxiv-sarake on sarake, jossa Machine Heart julkaisee akateemista ja teknistä sisältöä. Viime vuosina Heart of the Machine AIxiv -kolumni on saanut yli 2 000 raporttia, jotka kattavat tärkeimpien yliopistojen ja yritysten huippulaboratoriot ympäri maailmaa ja edistävät tehokkaasti akateemista vaihtoa ja levittämistä. Jos sinulla on erinomaista työtä, jonka haluat jakaa, ole hyvä ja osallistu tai ota meihin yhteyttä raportoidaksesi. Lähetyssähköposti: [email protected]; [email protected]

Tämän työn viimeisteli yhdessä tutkijaryhmä, johon kuuluivat Rui Zhang, Yixin Su, Bayu Distiawan Trisedya, Xiaoyan Zhao, Min Yang, Hong Cheng ja Jianzhong Qi Tsinghuan yliopistosta, Melbournen yliopistosta, Hongkongin kiinalaisesta yliopistosta ja yliopistosta. Kiinan tiedeakatemia. Tiimi keskittyy suurten mallien tutkimukseen, tietokaavioihin, suositeltuun hakuun, luonnollisen kielen käsittelyyn, big dataan ja muihin suuntiin.

Tärkeänä strukturoidun tiedon kantajana tietokaavioita käytetään laajasti monilla aloilla, kuten tiedonhaussa, sähköisessä kaupankäynnissä ja päätöksenteon päättelyssä. Koska eri instituutioiden tai menetelmien laatimissa tietokaavioissa on kuitenkin eroja esitysmenetelmissä, kattavuudessa jne., erilaisten tietokaavioiden tehokkaasta integroinnista kattavamman ja rikkaamman tietojärjestelmän saamiseksi on tullut tärkeä kysymys parannettaessa kattavuutta ja kattavuutta. Tietograafit Tärkeä tarkkuuskysymys on Knowledge Graph Alignment -tehtävän ratkaistava ydinhaaste.

Perinteisten tietokaavioiden kohdistusmenetelmien on perustuttava manuaaliseen merkintään kohdistamaan jotkin entiteetit ja predikaatit siemenentiteettipareina. Tällaiset menetelmät ovat kalliita, tehottomia ja tarjoavat huonon kohdistuksen. Tsinghuan yliopiston, Melbournen yliopiston, Hongkongin kiinalaisen yliopiston ja Kiinan tiedeakatemian yliopiston tutkijat ehdottivat yhdessä täysin automaattista tietokaavioiden kohdistusmenetelmää, joka perustuu suuriin malleihin - AutoAlign. AutoAlign ei vaadi kohdistettujen siemenkokonaisuuksien tai predikaattiparien manuaalista merkintää. Sen sijaan se suorittaa kohdistuksen kokonaan algoritmin kokonaisuuden semantiikan ja rakenteen ymmärtämisen kautta, mikä parantaa merkittävästi tehokkuutta ja tarkkuutta.



论文:AutoAlign: Täysin automaattinen ja tehokas tietograafin kohdistus suurten kielimallien avulla,36 (6) TKDE 2024

Paperilinkki: https://arxiv.org/abs/2307.11772

Koodilinkki: https://github.com/ruizhang-ai/AutoAlign

Mallin esittely

AutoAlign koostuu pääasiassa kahdesta osasta:

Käytetään predikaattien kohdistamiseenPredikaattien upotusmoduuli(Predikaatti-upotusmoduuli).

Entiteettien upottaminen oppimisosaan entiteettien tasaamista varten sisältää kaksi moduulia:Omaisuuden upotusmoduuli(Attribuutin upotusmoduuli)和Rakenteellinen sulautettu moduuli(Rakenteen upotusmoduuli).

Koko prosessi on esitetty alla olevassa kuvassa:



Predikaattien upotusmoduuli : Predikaattien upotusmoduulin tavoitteena on kohdistaa predikaatit, jotka edustavat samaa merkitystä kahdessa tietokaaviossa. Tasaa esimerkiksi "is_in" ja "located_in". Tämän tavoitteen saavuttamiseksi tutkimusryhmä loi Predicate Proximity Graphin yhdistämällä kaksi tietograafia yhdeksi graafiksi ja korvaamalla siinä olevat entiteetit niitä vastaavilla tyypeillä (Entity Type). Tämä menetelmä perustuu seuraavaan oletukseen: samat (tai samankaltaiset) predikaatit, niitä vastaavien entiteettityyppien tulee myös olla samanlaisia ​​(esimerkiksi kohdeentiteettityypeillä "is_in" ja "located_in" on suuri todennäköisyys kuulua sijaintiin tai kaupunki). Tyyppien semanttinen ymmärtäminen suurten kielimallien avulla kohdistaa nämä tyypit entisestään, mikä parantaa kolmoisoppimisen tarkkuutta. Lopuksi predikaattinaapurigraafi opitaan graafin koodausmenetelmien (kuten TransE) avulla niin, että samoilla (tai vastaavilla) predikaateilla on samanlaiset upotukset, jolloin saavutetaan predikaattien kohdistus.

Erityisen toteutuksen osalta tutkimusryhmä rakensi ensin predikaattien läheisyysgraafin. Predikaattiläheisyysgraafi on graafi, joka kuvaa entiteettityyppien välisiä suhteita. Entiteettityypit edustavat laajoja entiteettiluokkia ja voivat automaattisesti linkittää eri entiteettejä. Vaikka joidenkin predikaattien pintamuodot ovat erilaisia ​​(esim. “lgd:is_in” ja “dbp:located_in”), niiden yhtäläisyydet voidaan tunnistaa tehokkaasti oppimalla predikaattien läheisyysgraafi. Vaiheet predikaattien läheisyysgraafin rakentamiseksi ovat seuraavat:

Entiteettityypin purku : Tutkimusryhmä poimi entiteettityypin hankkimalla tietograafin jokaisen entiteetin rdfs:type-predikaatin arvon. Tyypillisesti jokaisella entiteetillä on useita tyyppejä. Esimerkiksi Saksan entiteetillä voi olla useita tyyppejä tietokaaviossa, kuten "asia", "paikka", "sijainti" ja "maa". Predikaattien läheisyyskaaviossa ne korvaavat kunkin kolminteen pää- ja häntäoliot entiteettityyppien joukolla.

tyypin tasaus : Koska eri tietokaavioiden entiteettityypit voivat käyttää erilaisia ​​pintamuotoja (esim. "henkilö" ja "ihmiset"), tutkimusryhmän on kohdistettava nämä tyypit. Tätä varten tutkimusryhmä hyödyntää huippuluokan suuria kielimalleja, kuten ChatGPT ja Claude, jotta nämä tyypit automaattisesti kohdistetaan. Tutkimusryhmä voi esimerkiksi käyttää Claude2:ta tunnistamaan samanlaiset tyyppiparit kahdessa tietokaaviossa ja kohdistamaan sitten kaikki samanlaiset tyypit yhtenäiseksi esitykseksi. Tätä tarkoitusta varten tutkimusryhmä suunnitteli joukon automatisoituja kehotteita (prompts), jotka voivat automaattisesti saada kohdistussanat eri tietokaavioiden perusteella.

Jotta voidaan kaapata predikaattien samankaltaisuus, useita entiteettityyppejä on yhdistettävä. Tutkimusryhmä ehdotti kahta aggregointimenetelmää: painotettuja ja huomioperusteisia funktioita. Kokeissa he havaitsivat, että huomiopohjaiset toiminnot toimivat paremmin. Erityisesti ne laskevat kunkin entiteettityypin huomiopainon ja saavat lopullisen pseudotyyppisen upotuksen painotetun summauksen avulla. Seuraavaksi tutkimusryhmä koulutti predikaattien upotuksia minimoimalla tavoitefunktion niin, että samanlaisilla predikaatteilla on samanlaiset vektoriesitykset.

Omaisuuden upotusmoduuli ja rakenteen upotusmoduuli : Sekä attribuutin upotusmoduulia että rakenteen upotusmoduulia käytetään kokonaisuuden tasaamiseen. Heidän ideansa ovat samanlaisia ​​kuin predikaatti upottaminen, eli samalla (tai samankaltaisella) entiteetillä vastaavan tripletin ja toisen entiteetin predikaatin tulisi myös olla samanlainen. Siksi predikaattikohdistuksen (predikaattien upotusmoduulin kautta) ja attribuuttien kohdistamisen (attribuuttimerkkien upotusmenetelmän kautta) tapauksessa voimme sallia samanlaisten kokonaisuuksien oppia samanlaisia ​​upotuksia TransE:n kautta. Erityisesti:

Oppimisen attribuutit : Attribuutin upotusmoduuli määrittää suhteen otsikkoentiteetin ja attribuutin arvon välille koodaamalla attribuutin arvon merkkijonon. Tutkimusryhmä ehdotti kolmea yhdistelmäfunktiota attribuuttiarvojen koodaamiseksi: summausyhdistelmäfunktio, LSTM-pohjainen yhdistelmäfunktio ja N-grammiin perustuva yhdistelmäfunktio. Näiden toimintojen avulla pystymme vangitsemaan attribuuttiarvojen samankaltaisuuden, jotta kahden tietokaavion entiteettiattribuutit voidaan kohdistaa.

rakenteellista sulautettua oppimista : Rakenteen upotusmoduulia on parannettu TransE-menetelmällä ja se oppii entiteettien upotuksen antamalla eri painot eri naapureille. Kohdistetut ja implisiittisesti kohdistetut predikaatit saavat suuremman painoarvon, kun taas kohdistamattomia predikaatteja pidetään kohinana. Tällä tavalla rakenteellinen upotusmoduuli pystyy oppimaan kohdistetuista kolmioista tehokkaammin.

yhteinen koulutus : Kolmea moduulia: predikaattien upotusmoduuli, attribuuttien upotusmoduuli ja rakenteen upotusmoduuli voidaan kouluttaa vuorotellen, ne voivat vaikuttaa toisiinsa vaihtoehtoisen oppimisen kautta ja saavuttaa kunkin rakenteen yleisoptimaalisen esityksen optimoimalla upotuksen. Koulutuksen jälkeen tutkimusryhmä sai sulautettuja esityksiä entiteeteista, predikaateista, attribuuteista ja tyypeistä. Lopuksi vertaamme entiteetin samankaltaisuutta (kuten kosinin samankaltaisuutta) kahdessa tietokaaviossa ja löydämme entiteettiparit, joilla on suuri samankaltaisuus (täytyy olla korkeampi kuin kynnysarvo) entiteetin kohdistamista varten.

Kokeelliset tulokset

Tutkimusryhmä teki kokeita uusimmalla vertailutietojoukolla DWY-NB (Rui Zhang, 2022), ja tärkeimmät tulokset on esitetty alla olevassa taulukossa.



AutoAlign on parantanut merkittävästi tietokaavioiden kohdistusta, varsinkin kun manuaalisia merkintöjen siemeniä ei ole. Ilman ihmisen merkintää olemassa olevia malleja on lähes mahdotonta kohdistaa tehokkaasti. AutoAlign pystyy kuitenkin saavuttamaan erinomaisen suorituskyvyn tällaisissa olosuhteissa. Molemmissa tietojoukoissa AutoAlign saavuttaa merkittäviä parannuksia olemassa oleviin parhaisiin perusmalliin verrattuna (jopa manuaalisella merkinnällä) ilman siementen manuaalista merkintää. Nämä tulokset osoittavat, että AutoAlign ei ainoastaan ​​ylitä olemassa olevia menetelmiä kohdistustarkkuuden suhteen, vaan sillä on myös vahvoja etuja täysin automatisoiduissa kohdistustehtävissä.

viittaukset:

Rui Zhang, Bayu D. Trisedya, Miao Li, Yong Jiang ja Jianzhong Qi (2022). Vertailuarvo ja kattava kysely tietograafien kokonaisuuden mukauttamisesta esitysoppimisen kautta. VLDB Journal, 31 (5), 1143–1168, 2022.