Gemma 2 sau Llama 3 este cel mai bun model open source?

La I/O 2024, Google a anunțat următoarea linie de modele Gemma 2, iar acum compania lansează în sfârșit modelele ușoare sub o licență open source. Se spune că noul model Gemma 2 27B este foarte promițător, depășind unele modele mai mari, cum ar fi Llama 3 70B și Qwen 1.5 32B. Deci, pentru a testa această afirmație, să comparăm Gemma 2 și Llama 3 - două dintre cele mai bune modele open source de astăzi.

Scriere creativă

În primul rând, să vedem cât de bune sunt Gemma 2 și Llama 3 când vine vorba de scriere creativă. Autorul articolului le-a cerut ambelor modele să scrie o nuvelă despre relația dintre lună și soare. Ambele fac o treabă grozavă, dar modelul Gemma 2 de la Google iese în evidență datorită prozei sale captivante și poveștii bune.

Gemma 2 sau Llama 3 este cel mai bun model open source?
Gemma 2 sau Llama 3 este cel mai bun model open source?

Pe de altă parte, Llama 3 arată puțin plictisitor și robotic. Google a fost întotdeauna bun la generarea de text cu modelele Gemini și mai mic Gemma 2 27B nu face excepție.

Opțiune câștigătoare: Gemma 2

Testare multilingvă

În runda următoare, să vedem cât de bine se descurcă ambele modele în limbile non-engleze. Deoarece Google face reclamă că Gemma 2 este bună la înțelegerea mai multor limbi, autorul l-a comparat cu modelul Llama 3 al lui Meta. Autorul a cerut ambelor modele să traducă un pasaj în hindi. Atât Gemma 2, cât și Llama 3 au avut rezultate foarte bune.

Gemma 2 sau Llama 3 este cel mai bun model open source?
Gemma 2 sau Llama 3 este cel mai bun model open source?

Autorul a încercat și o altă limbă, bengaleza, iar modelele au dat rezultate la fel de bune. Cel puțin pentru limbile indiene, se poate spune că Gemma 2 și Llama 3 sunt bine pregătite pe un corpus mare. Cu toate acestea, Gemma 2 27B este de aproape 2,5 ori mai mic decât Llama 3 70B, ceea ce îl face și mai impresionant.

Opțiuni câștigătoare: Gemma 2 și Llama 3

Verificați logica

Deși Gemma 2 și Llama 3 nu sunt cele mai inteligente modele de acolo, ele pot efectua unele teste de raționament comune, la fel ca modelele mult mai mari. În comparația anterioară dintre Llama 3 și GPT-4 , modelul 70B al lui Meta a fost impresionant, deoarece a demonstrat o inteligență destul de bună chiar și la dimensiunile sale mai mici.

Gemma 2 sau Llama 3 este cel mai bun model open source?
Gemma 2 sau Llama 3 este cel mai bun model open source?

În această rundă, Llama 3 a învins-o pe Gemma 2 cu o diferență mare de scor. Llama 3 a răspuns corect la 2 din 3 întrebări, în timp ce Gemma 2 s-a chinuit să răspundă corect chiar și la una. Gemma 2 pur și simplu nu este pregătită să rezolve întrebări complexe de raționament.

Pe de altă parte, Llama 3 are o bază solidă de raționament, care poate fi dedusă cel mai probabil din setul de date criptat. În ciuda dimensiunilor sale mici - cel puțin în comparație cu modelele cu un trilion de parametri, cum ar fi GPT-4 -, prezintă mai mult decât un nivel corect de inteligență. În cele din urmă, utilizarea mai multor jetoane pentru a antrena modelul are ca rezultat un model mai puternic.

Opțiune câștigătoare: Llama 3

Urmați instrucțiunile

În runda următoare, autorul le-a cerut lui Gemma 2 și Llama 3 să creeze 10 cuvinte care se termină cu cuvântul „NPU”. Și Llama 3 a primit 10/10 răspunsuri corecte. În schimb, Gemma 2 a produs doar 7 propoziții corecte din 10. În multe versiuni anterioare, modelele Google, inclusiv Gemini, nu au urmat bine instrucțiunile utilizatorului. Și aceeași tendință continuă și cu Gemma 2.

Gemma 2 sau Llama 3 este cel mai bun model open source?
Gemma 2 sau Llama 3 este cel mai bun model open source?

Urmarea instrucțiunilor utilizatorului este crucială pentru modelele AI. Acesta asigură fiabilitatea și generează feedback precis pentru ceea ce ați instruit. De asemenea, din punct de vedere al siguranței, ajută la menținerea modelului la pământ pentru o mai bună conformitate cu protocoalele de siguranță.

Opțiune câștigătoare: Llama 3

Găsiți informații

Atât Gemma 2, cât și Llama 3 au o lungime de context de 8K de jetoane. Autorul a adăugat un bloc imens de text, preluat direct din cartea Mândrie și prejudecată, conținând peste 17.000 de caractere și 3,8 mii de jetoane. Ca întotdeauna, autorul plasează un citat aleatoriu undeva în text și le cere ambelor modele să-l găsească.

Gemma 2 sau Llama 3 este cel mai bun model open source?

Gemma 2 și-a dat seama rapid de informații și a subliniat că citatul a fost inserat aleatoriu. De asemenea, Llama 3 a găsit și a sugerat că această afirmație părea deplasată. În ceea ce privește memoria de context lungă, deși limitată la jetoane de 8K, ambele modele sunt destul de puternice în acest sens.

Rețineți că autorul a efectuat acest test pe HuggingChat (web) deoarece meta.ai a refuzat să ruleze acest prompt, cel mai probabil din cauza conținutului de drepturi de autor.

Opțiuni câștigătoare: Gemma 2 și Llama 3

Verificați dacă există halucinații

Modelele mai mici tind să sufere de halucinații AI din cauza datelor limitate de antrenament, adesea fabricând informații atunci când modelul întâlnește subiecte necunoscute. Așa că autorul și-a introdus numele de țară inventat pentru a testa dacă Gemma 2 și Llama 3 au halucinații. Și, în mod surprinzător, nu au făcut-o, ceea ce înseamnă că atât Google, cât și Meta au o bază destul de bună pentru modelele lor.

Gemma 2 sau Llama 3 este cel mai bun model open source?
Gemma 2 sau Llama 3 este cel mai bun model open source?
Gemma 2 sau Llama 3 este cel mai bun model open source?

Autorul a pus și o altă întrebare (falsă) pentru a testa validitatea modelelor, dar din nou, acestea nu erau halucinogene. Apropo, autorul a testat Llama 3 pe HuggingChat în timp ce meta.ai a căutat pe internet informații actuale despre subiecte relevante.

Opțiuni câștigătoare: Gemma 2 și Llama 3

Încheia

În timp ce modelul Google Gemma 2 27B nu se descurcă bine la testele de raționament, este capabil de o serie de alte sarcini. Este excelent pentru scrierea creativă, acceptă mai multe limbi, are memorie bună și, mai ales, nu este la fel de halucinogenă ca modelele anterioare.

Llama 3 este mai bun, desigur, dar este și un model semnificativ mai mare, antrenat pe 70 de miliarde de parametri. Dezvoltatorii vor găsi modelul Gemma 2 27B util pentru o gamă largă de cazuri de utilizare. Și pentru o bună măsură, Gemma 2 9B este și el disponibil.

În plus, utilizatorii ar trebui să verifice Gemini 1.5 Flash, care este din nou un model mult mai mic și acceptă și intrare multimodală. Ca să nu mai vorbim că este incredibil de rapid și eficient.

Sign up and earn $1000 a day ⋙

Leave a Comment

Prima persoană care a avut ChatGPT implantat în creier pentru a ajuta la manipularea dispozitivelor electronice

Prima persoană care a avut ChatGPT implantat în creier pentru a ajuta la manipularea dispozitivelor electronice

ChatGPT este testat de Synchron, unul dintre pionierii cipurilor pentru implanturi cerebrale (BCI) pentru a ajuta pacienții să manipuleze dispozitivele electronice.

Cum AI Art Generators îmbunătățesc fotografiile tale de zi cu zi

Cum AI Art Generators îmbunătățesc fotografiile tale de zi cu zi

Vrei să schimbi aspectul fotografiilor tale de zi cu zi? Instrumentele de creație de artă AI pot adăuga o notă unică și creativă pe care s-ar putea să nu o obțineți cu editarea manuală.

5 motive pentru care Aria AI de la Opera este utilă

5 motive pentru care Aria AI de la Opera este utilă

Mulți oameni nu le place AI pentru că doresc să citească datele brute și să le analizeze ei înșiși. Cu toate acestea, încercați Aria AI de la Opera când sunteți blocat cu o sarcină obositoare și aveți nevoie de idei. Iată de ce Aria AI de la Opera este utilă!

Cel mai recent cod pentru House of Flying Daggers și cum să răscumpărați codul

Cel mai recent cod pentru House of Flying Daggers și cum să răscumpărați codul

Codul Thap Dien Mai Phuc le oferă jucătorilor Kim Nguyen Bao, Hoan Khon Halo, Aur, Huyen Tinh, Huyen Tinh Chest

Black Myth: Wukong fură recordul de la Cyberpunk 2077

Black Myth: Wukong fură recordul de la Cyberpunk 2077

Cu o mulțime de recenzii în mare parte pozitive, nu este surprinzător faptul că Black Myth: Wukong a doborât recorduri pe Steam.

Aflați despre codul de eroare 0xc00000e și cum să îl remediați

Aflați despre codul de eroare 0xc00000e și cum să îl remediați

Temutul cod de eroare Blue Screen of Death (BSOD) 0xc00000e, care apare adesea la pornirea Windows 10, poate fi confuz.

Spațiu Play Together, denumește spațiul Play Together

Spațiu Play Together, denumește spațiul Play Together

Mulți oameni folosesc spații în numele lor Play Together sau folosesc litere de subliniere mici pentru a crea spații între literele pe care le scrii în numele tău.

Cum să descărcați Black Beacon PC

Cum să descărcați Black Beacon PC

Deși este pe deplin posibil să experimentezi Black Beacon pe PC, jocul nu este optimizat oficial pentru această platformă în acest moment.

Formula de calcul al suprafeței și al volumului sferei

Formula de calcul al suprafeței și al volumului sferei

Aria suprafeței unei sfere este de patru ori aria unui cerc mare, care este de patru ori constanta Pi înmulțită cu pătratul razei sferei.

Ce este special la costumul spațial ales de China pentru prima aterizare cu echipaj uman pe Lună?

Ce este special la costumul spațial ales de China pentru prima aterizare cu echipaj uman pe Lună?

China își propune să-și trimită primii cetățeni pe Lună până în 2030, iar țara tocmai a dezvăluit un costum spațial nou proiectat, care va fi folosit în viitoarea misiune istorică.

Alimente care provoacă ușor inflamații în organism

Alimente care provoacă ușor inflamații în organism

Multe alimente pot provoca inflamații și boli cronice. Mai jos sunt alimente pe care ar trebui să evitați să le consumați prea mult dacă nu doriți să aduceți boli în organism.

Instrucțiuni despre cum să joci Zuka Lien Quan Mobile sezonul S1 2023

Instrucțiuni despre cum să joci Zuka Lien Quan Mobile sezonul S1 2023

Zuka este un asasin despre care se știe că este o teroare pentru campionii cu sănătate scăzută. Învață cum să folosești Zuka eficient în sezonul 23.

Cel mai recent cod de epocă eroică și cum să răscumpărați codul

Cel mai recent cod de epocă eroică și cum să răscumpărați codul

Primirea de cadouri prin codurile cadou Heroic Age este ceea ce fac aproape toți jucătorii noi când se alătură jocului.

8 cei mai ieftini furnizori de stocare în cloud

8 cei mai ieftini furnizori de stocare în cloud

Să aruncăm o privire la cele mai ieftine opțiuni de stocare online în cloud disponibile. Acest articol va analiza prețurile atât în ​​termeni absoluti, cât și pe gigabyte (pe lună), astfel încât să puteți alege ce este cel mai bine pentru dvs.

Care este eroarea semnului lire sterline (####) în Excel?

Care este eroarea semnului lire sterline (####) în Excel?

#### în Excel este o eroare comună în Excel și apare în multe cazuri diferite când introducem date în Excel, funcții în Excel, introducem formule în Excel.