on taas vilkasta! openai:n paranneltu versio "her" on virallisesti auki, ohittaen geminin "tuotantotason" päivityksen...

onpa taas vilkasta! openai:n parannettu versio "her" on virallisesti auki, ylittäen geminin "tuotantotason" päivityksen...

2024-09-25

kirjailija: jessica

tänään on todella vilkas päivä tekoälypiirissä, jota ei ole nähty pitkään aikaan!

olin hämmentynyt ultramanin eilen julkaisemasta ai-esseestä, ja nyt hänen toimintansa tarkoitus on selvä.

ultraman haluaa hyökätä vanhaan viholliseensa googleen. tarkemmin sanottuna google päivitti tänään kaksi päivitettyä gemini-mallia: gemini-1.5-pro-002 ja gemini-1.5-flash-002.

sniping-menetelmä on yksinkertainen ja karkea: ilmoita suoraan, että kauan odotettu gpt-äänitoiminto avataan virallisesti tänään.

alle kahdessa tunnissa google syrjäytettiin googlen kovalla työllä saavutetusta kohokohtasta. jos olisin google, olisin niin vihainen.

gpt advanced voice on täällä, ja se puhuu yli 50 kieltä

openai sanoi, että chatgpt:n advanced voice mode otetaan vähitellen käyttöön kaikille plus- ja team-käyttäjille tällä viikolla.

samalla kun ihmiset odottavat kärsivällisesti, tiimi on parantanut joitakin ominaisuuksia, kuten lisännyt mukautettuja komentoja, muistitoimintoja, viisi uutta ääntä ja parannellut aksentteja.

koska siitä on puhuttu liian kauan, openai antoi erityisen lausunnon: "se voi sanoa "anteeksi, olen myöhässä" yli 50 kielellä.

ja laita esimerkki vaihdosta englannista mandariinikiinaksi: "isoäiti, olen pahoillani, olen myöhässä. en tarkoittanut odottaa sinua niin kauan, kuinka voin korvata sinulle?"

——hyvä kaveri, nyt sinusta on tullut gpt:n isoäiti, mikä pakottaa minut antamaan sinulle anteeksi.

kuten videosta näkyy, puhetilaa edustaa nyt sykkivä sininen pallo eikä musta animoitu piste, jota openai käytti esitellessään tekniikkaa toukokuussa.

kun käyttöoikeus myönnetään, sovellukseen tulee kehote. se avataan ensin plus- ja teams-tason käyttäjille ja laajennetaan yritys- ja koulutuskäyttäjille ensi viikosta alkaen.

chatgpt lisää myös viisi uutta ääntä kokemukseen: arbor, maple, sol, spruce ja vale. tässä vaiheessa edellisten breezen, juniperin, coven ja emberin lisäksi chatgpt-äänten kokonaismäärä on saavuttanut 9 (googlen gemini live -ääninumero on 10).

olet ehkä myös huomannut, että nämä nimet ovat kaikki saaneet vaikutteita luonnosta, "vaahterapuusta" ja "tuulesta" aina "aurinkoon" ja "laaksoon", ehkä jotta käyttö tuntuisi luonnollisemmalta. yksi ääni, joka puuttui, oli sky, ääni, jonka openai osoitti kevään julkaisussaan, mutta joka vedettiin oikeudelliseen kiistaan scarlett johanssonin, elokuvan "her" tähden, kanssa.

openai on myös laajentanut joitain chatgpt:n mukautusominaisuuksia edistyneisiin äänitiloihin, mukaan lukien "mukautettu komento" -ominaisuus, jonka avulla käyttäjät voivat mukauttaa vastauksia, ja muistiominaisuus, jonka avulla chatgpt voi muistaa keskustelut tulevaa tarvetta varten.

syötä esimerkiksi alla olevassa videossa järjestelmäasetusten mukautettuun chatgpt-valikkoon "nimeni on charlotte ja asun san franciscon lahden alueella." tarjoaa suosituksia, jotka vastaavat paikallista säätä ja liikennettä.

openai sanoi, että tiimi on parantanut vastausnopeutta, sujuvuutta ja aksentteja joillakin vierailla kielillä. ääni mukautuu keskustelun sävyyn, ja voit luoda kohtauksia, jotka saavat sen ottamaan erilaisia rooleja. äänen viive on hyvin pieni ja ymmärrys on vahvempi. tuntuu todella luonnolliselta keskustelulta toisen ihmisen kanssa.

openai:n neljä kuukautta sitten esittelemiä video- ja näytönjakotoimintoja ei kuitenkaan ole tällä kertaa päivitetty. tuolloin henkilökunta kysyi gpt:ltä paperilla olevista matemaattisista ongelmista ja tietokoneen näytöllä olevista koodeista ja sai reaaliaikaisia vastauksia luonnollisen puhedialogin avulla. tällä hetkellä openai ei ole toimittanut tämän multimodaalisen ominaisuuden käyttöönottoaikataulua.

lisäksi edistynyt äänitila ei ole tilapäisesti avoinna euroopan unionille, isolle-britannialle, sveitsille, islannille, norjalle, liechtensteinille ja muille alueille.

tästä huolimatta vihdoinkin mahdollisuus päästä käsiksi "hänen" openai-versioon on todellakin jännittävää ihmisille, jotka ovat kyllästyneet tekoälypiiriin. yhdessä o1-esikatselun kanssa, joka juuri loi villityksen aallon, openai on hallinnut alaa tiukasti vielä viikon.

tämä jännitys sai myös kaikki kärsimään ajoittaisesta muistinmenetyksestä:

muuten, mitä google julkaisi tänään?

gemini 1.5 päivittää kaksi uutta mallia, hinta puolittuu ja nopeus kasvaa

googlen päivitys tällä kertaa on todella tärkeä, ainakin kehittäjille.

google blogin mukaan he ovat tällä kertaa päivittäneet kaksi tuotantoluokan gemini-mallia: gemini-1.5-pro-002 ja gemini-1.5-flash-002. niin sanottu "tuotantotaso" tarkoittaa, että ai-malli on täysin kehitetty, testattu ja optimoitu, ja se on valmis kaupalliseen käyttöön. se pystyy käsittelemään suuren määrän käyttäjien pyyntöjä ja sitä voidaan soveltaa tuotepalveluihin, ei vain kokeiluja tai tutkimusta.

tämän vuoden toukokuussa pidetyssä i/o-konferenssissa julkistettuna merkittävänä päivityksenä gemini 1.5 -sarjan malleihin uudet mallit ovat nopeampia, tehokkaampia ja kustannustehokkaampia.

tärkeimmät kohokohdat on tiivistetty seuraavasti:

1. merkittävä hinnanalennus: 1.5 pron syöttö- ja lähtöhinnat ovat laskeneet noin 50 %, mikä on vähentänyt merkittävästi rakennuskustannuksia, erityisesti alle 128 000 tokenin kärkien kohdalla.

2. laadun yleinen parannus: erityisesti matematiikan, koodin luomisen, pitkän tekstin kontekstin ja visuaalisten tehtävien suorituskyvyn parantuminen on merkittävää, mukaan lukien noin 20 prosentin lisäys vertailutesteissä, kuten math ja hiddenmath, ja 2–7 prosentin lisäys. visuaalisissa ja koodisovelluksissa.

3. nopeusrajan lisäys: 1,5 flashin ja 1,5 pron nopeusrajoitusta on nostettu 1000 rpm:stä (pyyntöä minuutissa) ja 360 rpm:stä 2000 rpm:iin ja 1 000 rpm:iin, mikä mahdollistaa kehittäjien rakentamisen ja käsittelyn nopeammin.

4. nopeampi lähtö ja pienempi viive: lähtönopeus kasvaa 2 kertaa ja latenssi pienenee 3 kertaa, mikä tukee tehokkaampia sovellusskenaarioita.

5. suppeammat vastaukset: vastaustyyli on ytimekkäämpi, halvempi ja tulosteen pituus on lyhennetty 5–20 %. se myös vähentää hylkäysten ja välttelyjen määrää monissa aiheissa ja ylläpitää korkeaa hyödyllisyyttä.

6. multimodaalinen ja pitkä kontekstituki: 1.5 pron 2 miljoonan merkkiä pitkä kontekstiikkuna tukee pitkän tekstin ja multimodaalisten tehtävien käsittelyä, kuten 1 000-sivuisten pdf-tiedostojen tai pitkien videoiden sisällön luomista.

7. päivitetyt suodatusasetukset: mallin oletussuojaussuodatinta ei enää käytetä automaattisesti, ja kehittäjät voivat mukauttaa mallin suojausasetuksia tarpeen mukaan.

kehittäjät voivat käyttää kahta uusinta mallia ilmaiseksi google ai studion ja gemini api:n kautta. uusi malli on saatavilla myös vertex ai:ssä suurille organisaatioille ja google cloud -asiakkaille.

kaksoset peittyvät gpt:n varjoon

kuitenkin verrattuina muihin, monet tavalliset käyttäjät ilmaisivat pettymyksensä googlen siirtoon, koska he kokivat, että tämä ei ollut edes todellinen "julkaisu".

abacus.ai:n toimitusjohtaja ja tunnettu bloggaaja bindu reddy sanoi: "valitettavasti openai julkaisi o1:n, joka läpäisi älykkyysosamäärän testin, kun taas google teki juuri joitain pieniä päivityksiä gemini 1.5:een. heillä on 100 kertaa enemmän resursseja, 10 kertaa lahjakkuutta ja 10 kertaa kertaa kaikista asioista, kuinka tämä voi tapahtua?"

vaikka jotkut kehittäjät puhuvat edelleen googlen puolesta, esimerkiksi reddit-keskustelufoorumin nettimies sanoi:

"nämä ovat hyödyllisiä asioita ihmisille, jotka todella rakentavat sovelluksia ja yrittävät vähentää kustannuksia ja lisätä voittoja. työskentelen sovelluksella, jolla on kiinteät kustannukset operaatiota kohden, joka määräytyy tunnuksen pituuden mukaan, mikä tekee voittoni se on noin 30 % enemmän tämä ei ehkä merkitse paljon useimmille ihmisille. tiedän, että monet ihmiset ovat vihaisia tästä googlen "ilmoituksesta", mutta se on itse asiassa hyvä päivitys.

hinta puolittuu, nopeus kasvaa ja viive vähenee. nämä ovat todellakin sitä, mitä kehittäjät haluavat. mutta kuten kaikki sanoivat, valitus voi rajoittua kehittäjäyhteisöön.

jopa jotkut kehittäjät pilkkasivat: "en näe vertailua clauden tai o1:n kanssa, ja olemme ottamassa käyttöön seuraavan sukupolven openai- ja anthropic-malleja. deepmindillä on itse asiassa paljon parempia malleja, mutta ne menevät suoraan yrityksille, volkswagenin ohittaminen onko gemini vaikuttava, yksinkertaisesti pettymys.

googlen huono mallien nimeäminen joutui myös verkkokauppiaiden nauramiseen, koska se piti sitä pitkäksi ja hämmentäväksi.

the information julkaisi äskettäin artikkelin nimeltä "miksi tekoälykehittäjät ohittavat googlen kaksoset". haastattelemalla useita tekoälyyritysten perustajia ja googlen sisäisiä työntekijöitä, se kertoo tarinan siitä, kuinka kehittäjät "hylkäsivät" geminin sekä esteitä ja vaikeuksia, joita se kohtasi saavuttaessaan chatgpt:tä.

esimerkiksi kilpaileviin teknologioihin verrattuna geminiin soittaminen on liian monimutkaista kehittäjille ja yrityksille. topologian perustaja aidan mclaughlin sanoi, että ensimmäinen kerta, kun hän käytti openai:n apia, kesti vain 30 sekuntia, kun taas geminin käyttö kesti 4 tuntia. samaan aikaan googlen suuri mallisuorituskyky jää openai:n ja anthropicin jälkeen, eikä näitä esteitä kannata voittaa.

chatgpt:hen verrattuna geminin epäsuosio kehittäjien keskuudessa näyttää olevan avoin salaisuus todellisessa maailmassa.

yritysohjelmistojen startup retoolin kesäkuussa tekemässä yli 750 teknologian työntekijän tutkimuksessa vain 2,6 % vastaajista ilmoitti käyttävänsä geminiä useimmiten tekoälysovellusten rakentamiseen, ja yli 76 % valitsi gpt:n käytön.

likewebin seuraamat verkkosivustojen liikennetiedot osoittavat, että kesä-elokuussa openai:n sovelluskehittäjäsivu sai 82,8 miljoonaa näyttökertaa, kun taas googlen sivujen näyttökerrat olivat 8,4 miljoonaa kertaa.

pienemmät epäviralliset tutkimukset tarjoavat samanlaisia todisteita. viime kuun lopulla finetunen perustaja julian saks kysyi 50:ltä tekoälyn startup-kehittäjältä coworking-tilassaan san franciscossa, mitä keskustelevia tekoälymalleja he käyttävät eniten. melkein kaikki sanoivat käyttävänsä pääasiassa anthropicin tai openai:n malleja, eikä kukaan maininnut geminiä.

vaikka gemini-malli on hyödyllinen analysoitaessa pitkiä asiakirjoja tai pitkiä koodipohjaa, monet kehittäjät sanovat, että googlen mallivaihtoehdot ovat monipuolisia, vaiheet ovat monimutkaisia ja kehittäjäjärjestelmä on erilainen kuin openai:n ja vaikeampi käyttää. ja joskus googlen eri palvelut kilpailevat keskenään omissa hakutuloksissaan, jolloin ihmisten on helppo juuttua työkalujen selvittämiseen.

kaksosia pilkataan usein x:llä tästä syystä. brendan dolan-gavitt, tekoälytutkija tietoturvastartupista xbow, levisi virukselle aiemmin tässä kuussa, kun hän julkaisi twiitin, jossa hän esitti lukuisia toimenpiteitä, joita hän teki aloittaakseen geminin kanssa vertexin kautta. muut kehittäjät ilmaisivat myötätuntonsa kommenttiosiossa.

ympäristössä, jossa "maailman johtavat insinöörit käyttävät openai:ta, claudea tai cursoria", kehittäjien ei todellakaan tarvitse kokeilla mitään muuta. toisaalta käytön väheneminen ei salli gemini saada yhtä paljon datapalautetta kuin chatgpt, jolloin google joutuu kohtaamaan monitulkintaisemman etenemissuunnitelman mallin parantamisessa.

pettymys, koska ihmiset odottavat niin paljon googlelta

google yrittää muuttaa tätä käsitystä muun muassa vastaamalla gemini on x:n kritiikkiin, tuomalla siipiensä alle lisää teknisiä tähtiasiantuntijoita sellaisista yrityksistä kuin openai ja yhdistämällä joitakin päällekkäisiä kehitystoimintoja. he myös mainostavat geminiä järjestämällä kehittäjätapahtumia.

tänään, samanaikaisesti gemini-1.5-pro-002:n julkaisun kanssa, järjestetään myös gemini for work -verkkotapahtuma. google käyttää paljon tilaa mainostaakseen geminin nykyisiä hakemustapauksia yrityksissä, kuten best buy, snap, ups capital, wayfair jne. on raportoitu, että he yrittävät houkutella lisää suuria yritysasiakkaita tarjoamalla tietyssä määrin "valkokäsine" -palveluita.

mutta vakiintuneen markkinaosuuden edessä googlen vastahyökkäys ei välttämättä ole niin helppoa.

logan kilpatrick, ai studion tuotejohtaja, joka vastasi openai:n kehittäjäsuhteista ennen liittymistään tämän vuoden huhtikuussa, sanoi: "todellisuus on, että openai on googlea edellä llm api -kehittäjätyökalujen suhteen. meidän on kilpailtava heidän kanssaan. nykyiset kehitystyöt kehittäjien keskuudessa taistelevat vakiintuneesta markkinaosuudesta.

aiemmin rowan cheung, tunnettu ai-piirin bloggaaja, ennusti saaneensa valmiiksi haastattelun tekoälymallin suuresta päivityksestä tänään kehittäjillä on suuri päivä.

tuon twiitin alla logan kilpatrickin hymyilevä ilme näytti hieman nolostuneelta suuren katumuksen keskellä ja sanoi: "miksi se ei ole claude opus 3.5?"

konservatiiviset, kiistanalaiset ja jälkeenjääneet ovat stereotypiat, jotka google, tekoälyjätti, on jättänyt yhteisölle tänään. gemini-1.5-pro-002:n julkaisu ei näytä poistavan tätä umpikujaa.

ihmisten pettymys tähän yritykseen johtuu korkeista odotuksista sitä kohtaan: näin vahvalla voima- ja lahjakkuusreservillä olisi sääli, että kaikki eivät pysty tarjoamaan maailmalle lisää "korvaavia" vaihtoehtoja openai:lle.

uutiset

onpa taas vilkasta! openai:n parannettu versio "her" on virallisesti auki, ylittäen geminin "tuotantotason" päivityksen...

johdanto

yhteystietoni