Gemini

Konačno objavljen odgovor ChatGPT-ju: Je li pompa bila opravdana?

"Ovaj model je inherentno sposobniji", rekao je Sundar Pichai, izvršni direktor Googlea i njegove matične tvrtke Alphabet, za MIT Technology Review.
Sci-Tech / Tehnologija | 06. 12. 2023. u 17:58 Bljesak.info

Tekst članka se nastavlja ispod banera

Pompa oko Geminija, dugo očekivanog odgovora Google DeepMinda na OpenAI-jev GPT-4, raste mjesecima. U srijedu je tvrtka konačno otkrila na čemu je u tajnosti radila sve ovo vrijeme. Je li pompa bila opravdana? I da i ne, piše ugledni MiT Technology Review, a prenosi Index.hr.

"Stroj za sve"

Gemini je najveće Googleovo predstavljanje umjetne inteligencije do sada, njegov pokušaj da nadmaši konkurente OpenAI i Microsoft u utrci za prednost na polju umjetne inteligencije. Nema sumnje da je model najbolji u klasi u širokom rasponu mogućnosti - "stroj za sve", kako to kaže jedan poznavatelj problematike.

"Ovaj model je inherentno sposobniji", rekao je Sundar Pichai, izvršni direktor Googlea i njegove matične tvrtke Alphabet, za MIT Technology Review. "To je platforma. AI je duboka promjena platforme, veća od weba ili mobilnih uređaja. To predstavlja veliki korak za nas".

"Nadmašuje GPT-4 u 30 od 32 standardne mjere"

To je velik korak za Google, ali ne nužno i golemi korak naprijed za područje u cjelini, navodi MiT Technology Review. Google DeepMind tvrdi da Gemini nadmašuje GPT-4 u 30 od 32 standardne mjere performansi. A ipak, granice između njih su tanke.

Ono što je DeepMind učinio jest da je uklopio trenutne mogućnosti umjetne inteligencije u jedan snažan paket. Sudeći prema demonstracijama, mnoge stvari radi vrlo dobro — ali i nekoliko stvari koje prije nismo vidjeli. Gemini bi, navodi MiT Technology Review, mogao biti znak da smo dosegli vrhunac AI pompe. Barem za sada.

Chirag Shah, profesor na Sveučilištu Washington koji se specijalizirao za online pretraživanje, uspoređuje Googleovo današnje predstavljanje s Appleovim predstavljanjem novog iPhonea svake godine. “Možda smo sada samo došli do drugog praga, gdje nas ovo ne impresionira toliko jer smo nedavno vidjeli toliko toga”, kaže on.

Gemini prihvaća više vrsta unosa: Tekst, sliku, zvuk...

Kao i GPT-4, Gemini je multimodalan, što znači da je osposobljen za prihvaćanje više vrsta unosa: tekst, slika, zvuk. Može kombinirati ove različite formate kako bi odgovorio na pitanja o svemu, od kućanskih poslova do fakultetske matematike i ekonomije.

U demonstraciji za novinare Google je pokazao sposobnost Geminija da napravi snimku zaslona postojećeg grafikona, analizira stotine stranica istraživanja s novim podacima i zatim ažurira grafikon s tim novim informacijama. U drugom primjeru Geminiju se pokazuju slike omleta koji se peče u tavi i pita (govorom, a ne tekstom) je li omlet gotov. "Nije gotov jer su jaja još uvijek tekuća", odgovara.

Većina ljudi će morati pričekati na puno iskustvo Geminija

Međutim, većina će ljudi morati pričekati na potpuno iskustvo. Verzija koja je danas pokrenuta nalazi se u sklopu Barda, Googleovog chatbota za pretraživanje temeljenog na tekstu, za koji tvrtka kaže da će mu Gemini dati naprednije mogućnosti razmišljanja, planiranja i razumijevanja. Potpuno izdanje Geminija bit će objavljeno tijekom sljedećih mjeseci.

Video: Gemini: Google’s newest and most capable AI model

Novi Bard pojačan Geminijem u početku će biti dostupan na engleskom jeziku u više od 170 zemalja, ne uključujući EU i UK. Takva odluka je donesena kako bi se Google prije toga posavjetovao s lokalnim regulatorima, kaže Sissie Hsiao, potpredsjednica Googlea zadužena za Bard.

Tri veličine

Gemini također dolazi u tri veličine: Ultra, Pro i Nano. Ultra je verzija s punim pogonom, Pro i Nano su prilagođeni aplikacijama koje rade s ograničenijim računalnim resursima. Nano je dizajniran za rad na uređajima, kao što su Googleovi novi Pixel telefoni.

Razvojni programeri i tvrtke moći će pristupiti Gemini Prou počevši od 13. prosinca. Gemini Ultra, najmoćniji model, bit će dostupan "početkom sljedeće godine" nakon "opsežnih provjera povjerenja i sigurnosti", rekli su Googleovi menadžeri novinarima.

"Mi gledamo na to kao na Geminijevu eru modela”, rekao je Pichai pa dodao: “Ovako će Google DeepMind graditi i napredovati na području AI-ja. Stoga će uvijek predstavljati granicu, mjesto napretka u tehnologiji umjetne inteligencije".

Veći, bolji, brži, jači?

Najmoćniji model OpenAI-ja GPT-4 smatra se zlatnim standardom industrije. Dok se Google hvalio da Gemini po performansama nadmašuje OpenAI-jev prethodni model GPT 3.5, čelnici tvrtke izbjegavali su pitanja o tome koliko model premašuje GPT-4.

Google posebno ističe jedno mjerilo, nazvano MMLU (masovno razumijevanje jezika za više zadataka). Ovo je skup testova osmišljenih za mjerenje izvedbe modela na zadacima koji uključuju tekst i slike, uključujući razumijevanje pročitanog teksta, fakultetsku matematiku i kvizove s višestrukim izborom iz fizike, ekonomije i društvenih znanosti.

"Nadmašuje GPT-4 ljudske stručnjake na tekstualnim pitanjima"

Na tekstualnim pitanjima Gemini postiže 90%, a ljudski stručnjaci postižu približno 89%, kaže Pichai. GPT-4 postiže 86% rezultata na ovim vrstama pitanja. Na multimodalnim pitanjima Gemini postiže 59%, dok GPT-4 ima 57%. "To je prvi model koji je prešao taj prag", kaže Pichai.

Geminijeva izvedba u usporedbi s referentnim skupovima podataka vrlo je impresivna, kaže Melanie Mitchell, istraživačica umjetne inteligencije na Institutu Santa Fe u Novom Meksiku.

"Jasno je da je Gemini vrlo sofisticiran AI sustav", kaže Mitchell. "Ali nije mi očito da je Gemini zapravo znatno sposobniji od GPT-4", dodaje ona.

"Ovakvi modeli još moraju napredovati kako bi bili robusni"

I dok model ima dobre referentne rezultate, teško je znati kako protumačiti ove brojke s obzirom na to da ne znamo što je u podacima na kojima je obučen, kaže Percy Liang, direktor Stanfordovog centra za istraživanje modela temelja.

Mitchell također primjećuje da Gemini ima mnogo bolje rezultate na referentnim vrijednostima jezika i koda nego na slikama i videu. "Modeli multimodalnog temelja još uvijek moraju napredovati kako bi bili općenito i robusno korisni za mnoge zadatke", kaže ona.

Koristeći povratne informacije ljudskih testera, Google DeepMind istrenirao je Gemini da bude točniji u činjeničnom stanju, da navodi izvore podataka kada se to od njega zatraži i da se zaštiti od pitanja na koja ne može dati odgovor, a ne da izbacuje besmislice. Tvrtka tvrdi da to ublažava problem "halucinacija", koje su karakteristične za ChatGPT. Ali bez radikalnog revidiranja osnovne tehnologije, veliki jezični modeli nastavit će "izmišljati".

"Google ga reklamira kao model opće namjene"

Stručnjaci kažu da nije jasno nude li mjerila koja Google koristi za mjerenje performansi Geminija toliko mnogo uvida. A bez transparentnosti, teško je provjeriti Googleove tvrdnje.

"Google reklamira Gemini kao stroj za sve - model opće namjene koji se može koristiti na mnogo različitih načina", kaže Emily Bender, profesorica računalne lingvistike na Sveučilištu Washington. No tvrtka koristi uska mjerila za procjenu modela za koje očekuje da će se koristiti na te različite načine. "To znači da se zapravo ne može temeljito procijeniti", kaže ona.

U konačnici, za prosječnog korisnika postupno poboljšanje u odnosu na konkurentske modele možda neće imati veliku razliku, kaže Shah. "Više se radi o praktičnosti, prepoznatljivosti brenda, postojećoj integraciji, nego o tome da ljudi stvarno misle 'O, ovo je bolje'", kaže.

Gemini je stvaran dugo i polako

Gemini se dugo očekivao. U travnju 2023. Google je objavio da spaja svoju jedinicu za istraživanje umjetne inteligencije Google Brain s DeepMindom, Alphabetovim istraživačkim laboratorijem za umjetnu inteligenciju sa sjedištem u Londonu. Google je imao cijelu godinu da razvije Gemini, svoj odgovor na OpenAI-jev najnapredniji veliki jezični model GPT-4, koji je debitirao u ožujku i okosnica je plaćene verzije ChatGPT-ja.

Google je bio pod velikim pritiskom da pokaže investitorima da može parirati i prestići konkurente na polju AI-ja. Iako je Google godinama razvijao i koristio moćne modele umjetne inteligencije, oklijevao je pokrenuti alate s kojima bi se javnost mogla "igrati" zbog straha od štete po reputaciju i sigurnosnih problema.

Igrali su na sigurno

"Google je bio vrlo oprezan s objavljivanjem ovih stvari u javnosti", rekao je Geoffrey Hinton za MIT Technology Review u travnju, kada je napustio tvrtku. "Previše je loših stvari koje bi se mogle dogoditi i Google nije želio uništiti svoju reputaciju." Suočen s tehnologijom koja se činila nepouzdanom ili tržišnom, Google je igrao na sigurno - sve dok neuključivanje u utakmicu nije postalo veći rizik.

Google je na teži način naučio kako se lansiranje manjkavih proizvoda može obiti o glavu. Kada je u veljači predstavio Barda, konkurenta ChatGPT-ju, znanstvenici su ubrzo primijetili činjeničnu pogrešku u tvrtkinom vlastitom oglasu za chatbot, koji je u konačnici izbrisao 100 milijardi dolara vrijednosti zbog pada cijene dionice.

Generativni AI sustavi redovito izmišljaju. To nije jedini problem

U svibnju je Google objavio da uvodi generativne AI modele u većinu svojih proizvoda, od e-maila do softvera za produktivnost. Ali Googleova integracija Barda u e-mail i njegov širi paket proizvoda nisu uspjeli impresionirati kritičare, jer se chatbot, primjerice, referirao na mailove koji nisu postojali.

To je konzistentan problem s velikim jezičnim modelima. Iako izvrsni u generiranju teksta koji zvuči kao da bi ga mogao napisati čovjek, generativni AI sustavi redovito izmišljaju stvari. I to nije jedini problem s njima. Također ih je lako hakirati i prožeti su pristranostima. Njihova uporaba također jako zagađuje okoliš.

Google nije riješio ni te probleme niti sklonost AI modela da izmišljaju stvari. Njegovo rješenje za halucinacije je integracija alata u Bard koji korisnicima omogućuje korištenje Google pretraživanja za dvostruku provjeru odgovora chatbota, ali to se oslanja na točnost rezultata online pretraživanja.

Je li ovo plato ili podnožje?

Gemini bi mogao biti vrhunac ovog vala generativne umjetne inteligencije. Ali nije jasno kamo ide umjetna inteligencija izgrađena na velikim jezičnim modelima. Neki istraživači vjeruju da bi ovo mogao biti plato, a ne podnožje sljedećeg vrha.

Ali Pichaija to nije pokolebalo. "Gledajući unaprijed, vidimo puno prostora za glavu", kaže on. “Mislim da će multimodalnost biti velika stvar. Kako te modele budemo učili da više razumiju, bit će sve većih i većih otkrića. Dublja otkrića tek dolaze.”

"Kada sve to uzmem u obzir, iskreno se osjećam kao da smo na samom početku", zaključio je.

Kopirati
Drag cursor here to close