2024-08-15
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Mingmin tulee Aofein temppelistä
Qubits |. Julkinen tili QbitAI
Luo 20 000 sanaa yhdellä kertaa, ja suuri mallitulos on myös rullattu!
Tsinghua & Zhipu AI:n uusin tutkimus on onnistuneesti pidentänyt GLM-4:n ja Llama-3.1:n lähtöpituutta.
Saman ongelman alla tulostulos kasvoi suoraan 1800 sanasta 7800 sanaan.4 kertaa。
Sinun pitäisi tietää, että suurten mallien nykyinen sukupolven pituus on yleensä alle 2k. Tämä vaikuttaa sisällön luomiseen, kysymyksiin vastaamiseen jne., mikä voi johtaa epätäydellisiin kysymyksiin mallin esittämiin kysymyksiin ja luovuuden vähenemiseen.
Tutkimusta johtivat yhdessä Li Juanzi ja Tang Jie, Zhipu AI:n perustajat ja Tsinghuan yliopiston professorit.
Paperi ja koodi ovat avoimen lähdekoodin GitHubissa.
Jotkut verkkoyhteisöt ovat jo kokeneet sen ensin. LongWriter-llama3.1-8b voi luoda 10 000 sanan tekstin "The History of the Decline of the Roman Empire", jota voidaan käyttää MacBook Pro 2018:ssa (32 Gt).
Tulosteen sisältö on erittäin tarkkaa ja sille voidaan myöntää A++.
9B-malli käsittelee 10 000 sanaa
Tämä tutkimus sisältää pääasiassa kolme työn osa-aluetta.
Ensin tutkijat rakensivat testaustyökalun, LongWrite-Rulerin. Testaamalla useita suuria malleja he havaitsivat, että kaikki mallit tuottivatYli 2000 sanaavaikeuksia tekstin kanssa.
Analysoidessaan edelleen käyttäjien vuorovaikutuslokeja suurilla malleilla tutkijat havaitsivat, että hieman yli 1 % käyttäjien pyynnöistä mainittiin erikseenLuoda yli 2000 sanaateksti.
Tätä varten he muuttivat valvotussa hienosäätövaiheessa (SFT) käytettyä malliaTietojoukon enimmäistulosteen pituus。
Havaittiin, että mallin suurin ulostulopituus oli yhdenmukainen SFT-tietojoukon suurimman lähtöpituuden kanssa.merkittävä positiivinen korrelaatio。
Siksi päätellään, että nykyisten mallien lähtöpituus on rajoitettu pääasiassa siksiPitkät lähtönäytteet puuttuvat SFT-tietojoukosta。
Vaikka malli on nähnyt pidempiä sekvenssejä esiopetusvaiheessa, pitkien tekstinäytteiden puute SFT-vaiheessa vaikuttaa silti ulostulon pituuteen.
Tämän rajoituksen voittamiseksi tutkijat ehdottivatAgentWrite。
Tämä on agenttipohjainen putki.
Sen avulla voidaan hajottaa erittäin pitkät tekstin luontitehtävät useiksi alitehtäviksi, joista jokainen käsittelee osan siitä.
Tarkka prosessi on, että AgentWrite laatii ensin yksityiskohtaisen kirjoitussuunnitelman käyttäjän ohjeiden perusteella. Suunnitelma sisältää pääsisältökohdat ja tavoitemäärän sanoja jokaiselle kappaleelle. Suunnitelman mukaan AgentWrite kehottaa mallia peräkkäin luomaan kunkin kappaleen sisällön.
AgentWritein perustuen tiimi käytti GPT-4o:ta tuottamaan 6 000 pitkää SFT-lähtödataa, joiden lähtöpituus vaihteli 2 000 - 32 000 sanaa, muodostaen tietojoukon LongWriter-6k. ja lisää nämä tiedot koulutusprosessiin.
Menetelmän tehokkuuden tarkistamiseksi ryhmä ehdotti myös LongBench-Writea. Se sisältää erilaisia käyttäjän kirjoitusohjeita, ja tulosteen pituusmääritykset ovat 0-500 sanaa, 500-2000 sanaa, 2000-4000 sanaa ja yli 4000 sanaa.
Arviointitulokset osoittavat, että mallin tulosteen pituus kasvaa merkittävästi AgentWriten käytön jälkeen.
Suoran asetusten optimoinnin (DPO) avulla GLM-4-9B saavuttaa parhaan suorituskyvyn malleista.
Nopeiden käsien verkkokäyttäjät ovat jo ottaneet johtoaseman sen testaamisessa.
Redditin nettimies pyysi LongWriter-llama3.1-8b:tä luomaan historian Rooman valtakunnan rappeutumisesta. Se kesti yhteensä 22 minuuttia (laitteistosta riippuen) ja tuotti keskimäärin 3,34 merkkiä sekunnissa.
Luotu sisältö on suhteellisen kaavamaista, ja eri kysymyksiin vastaamisen rakenne ja rytmi ovat samanlaisia.
Siitä huolimatta se on hyvä alku ja parannukset ovat ilmeisiä.
Tutkimusryhmä totesi myös laajentavansa mallin lähdön pituutta ja laatua tulevaisuudessa entisestään sekä ryhtyvänsä tutkimaan, miten tehokkuutta voidaan parantaa sukupolven laadusta tinkimättä.
Viitelinkit:
https://github.com/THUDM/LongWriter