Home
» Wiki
»
Google susține că Gemini 2.5 depășește cele mai bune modele de la OpenAI, DeepSeek și alți giganți ai tehnologiei AI
Google susține că Gemini 2.5 depășește cele mai bune modele de la OpenAI, DeepSeek și alți giganți ai tehnologiei AI
Google tocmai a introdus Gemini 2.5, pe care compania îl numește „cel mai inteligent model AI de până acum”. Prima versiune a modelului a fost Gemini 2.5 Pro, care a obținut scoruri de referință impresionante în multe teste.
Google susține că Gemini 2.5 depășește cele mai bune modele de la OpenAI, DeepSeek și alți giganți ai tehnologiei AI
Gemini 2.5 Pro este disponibil acum prin Google AI Studio și în aplicația Gemini dacă sunteți utilizator Gemini Advanced . Gemini 2.5 Pro va fi disponibil și prin Vertex AI în viitorul apropiat.
Google nu a împărtășit prețurile pentru Gemini 2.5 Pro sau alte modele Gemini 2.5 în acest moment.
Toate modelele care folosesc Gemini 2.5 sunt „modele gânditoare”, adică pot procesa procesul de gândire înainte de a genera un răspuns. Aceste modele de „raționament” sunt următorul mare pas în spațiul AI, deoarece generează răspunsuri mai complexe și adesea mai precise.
„Acum, cu Gemini 2.5, am atins un nou nivel de performanță, combinând un model de bază semnificativ îmbunătățit cu un post-antrenament îmbunătățit ”, a spus Google.
„În viitor, vom construi aceste capacități de gândire direct în toate modelele noastre, astfel încât să poată face față unor probleme mai complexe și să sprijine agenții cu o conștientizare și mai bună a contextului . ”
Cum se compară Gemini 2.5 cu modelele OpenAI?
Google Gemini 2.5 Benchmark
Modelele Google Gemini 2.5 Pro depășesc modelele anterioare de top de la OpenAI și DeepSeek.
Scorurile de referință pentru Gemini 2.5 împărtășite de Google sunt destul de impresionante. Gemini 2.5 Pro Experimental a obținut un scor de 18,5% la Ultimul examen al umanității.
Acest scor înseamnă că, cel puțin deocamdată, Gemini 2.5 Pro Experimental este cel mai bun model după acea măsură. Scorul său depășește OpenAI 03-mini (14%) și DeepSeek R1 (8,6%).
Acest test special este considerat dificil, deși nu este singura modalitate de a măsura performanța unui model AI.
Google a evidențiat, de asemenea, capacitățile de programare ale Gemini 2.5 Pro și punctele de referință ale modelului în matematică și știință. Gemini 2.5 Pro este în prezent lider în comparațiile matematice și științifice, măsurate prin GPQA și AIME 2025.
Este posibil să programați în Gemini 2.5?
Programarea este punctul central al Gemini 2.5. Google susține „un salt uriaș înainte de la 2.0” și arată că mai multe îmbunătățiri sunt pe cale.
Noul model Google poate crea aplicații web și aplicații de cod agentic. O demonstrație de la Google arată că Gemini 2.5 Pro este folosit pentru a crea un joc dintr-o singură linie promptă.
4 motive pentru care Google Gemini 2.5 Pro contează pentru Enterprise AI
Iată patru puncte cheie de reținut pentru echipele de întreprindere atunci când evaluează Gemini 2.5 Pro.
1. Raționament structurat, transparent – un nou standard pentru claritatea gândirii
Ceea ce diferențiază Gemini 2.5 Pro nu este doar inteligența sa, ci și modul în care această inteligență își demonstrează în mod clar funcționarea. Metoda de antrenament pas cu pas de la Google creează un tren structurat de gândire (CoT) care nu seamănă cu divagații sau presupuneri, așa cum am văzut de la modele precum DeepSeek . Aceste CoT-uri nu sunt trunchiate în rezumate superficiale precum modelele OpenAI. Noul model Gemeni prezintă idei în pași numerotați, cu sub-gloanțe și o logică internă extrem de clară și transparentă.
În termeni practici, aceasta este o descoperire în ceea ce privește fiabilitatea și navigabilitatea. Utilizatorii de afaceri care evaluează rezultatele pentru sarcini critice – cum ar fi revizuirea implicațiilor politicii, codificarea logicii sau rezumarea cercetărilor complexe – pot vedea acum cum a venit modelul cu răspunsul. Asta înseamnă că pot valida, corecta sau redirecționa răspunsurile cu mai multă încredere. Acesta este un mare pas înainte față de sentimentul „cutie neagră” care încă persistă în multe ieșiri ale modelului de limbă mare (LLM) .
Pentru un ghid mai aprofundat despre cum funcționează acest model, consultați detalierea video în care Gemini 2.5 Pro este testat live. Un exemplu discutat: Când a fost întrebat despre limitările modelelor mari de limbaj, Gemini 2.5 Pro a arătat o conștientizare remarcabilă. Acesta subliniază punctele slabe comune și le clasifică în domenii precum „intuiția fizică”, „sinteza unui nou concept”, „planificarea pe termen lung” și „nuanțarea etică”, oferind un cadru care ajută utilizatorii să înțeleagă ce știe modelul și cum să abordeze problema.
Echipele de inginerie ale întreprinderii pot folosi această capacitate pentru a:
Depanați lanțuri logice complexe în aplicațiile critice
O mai bună înțelegere a limitărilor modelului în domenii specifice
Furnizarea de decizii mai transparente bazate pe inteligența artificială părților interesate
Îmbunătățiți propria gândire critică studiind abordarea modelului
O limitare notabilă este că, deși acest raționament structurat este disponibil în aplicația Gemini și Google AI Studio, în prezent nu este accesibil prin API - un dezavantaj pentru dezvoltatorii care doresc să integreze această capacitate în aplicațiile de întreprindere.
2. Un adevărat concurent pentru tehnologia de ultimă oră – nu doar în teorie
În prezent, modelul se află în fruntea clasamentului Chatbot Arena cu o marjă semnificativă – cu peste 35 de puncte Elo înaintea următorului cel mai bun model, în special actualizarea OpenAI 4o lansată a doua zi după lansarea Gemini 2.5 Pro. Și în timp ce dominația de referință este adesea trecătoare (pe măsură ce noi modele se lansează săptămânal), Gemini 2.5 Pro se simte cu adevărat diferit.
Excelează la sarcini care răsplătesc raționamentul profund: codificare, rezolvarea nuanțată a problemelor, rezumarea documentelor și chiar planificarea abstractă. În testarea internă, a avut rezultate deosebit de bune pe benchmark-uri anterior dificile, cum ar fi „Umanity’s Last Exam”, un etalon popular pentru detectarea punctelor slabe LLM în domenii abstracte și nuanțate.
Grupurilor de afaceri s-ar putea să nu le pese ce model câștigă care clasamente academice. Dar le va păsa că acest model poate gândi - și vă va arăta cum gândește. Testul de vibrații este foarte important.
După cum a remarcat respectatul inginer AI Nathan Lambert, „Google are din nou cele mai bune modele, pentru că ar fi trebuit să înceapă tot acest boom AI. Marea greșeală a fost remediată”. Utilizatorii de afaceri ar trebui să vadă acest lucru nu doar ca Google atingând concurenții, ci și posibil să îi depășească în capabilități care sunt importante pentru aplicațiile de afaceri.
3. În cele din urmă, jocul de criptare Google este puternic
În mod tradițional, Google a rămas în urma OpenAI și Anthropic în ceea ce privește suportul de codare axat pe dezvoltatori. Gemini 2.5 Pro schimbă asta.
În testele practice, a demonstrat capacități puternice de un singur pas în provocările de codificare, inclusiv construirea unui joc Tetris funcțional care a rulat la prima încercare când a fost exportat în Replit - nu este necesară depanarea. Mai remarcabil, explică clar structura codului, etichetează cu atenție variabilele și pașii și își prezintă abordarea înainte de a scrie o singură linie de cod.
Acest model concurează cu Claude 3.7 Sonnet de la Anthropic, care este considerat lider în generarea de coduri și este un motiv major pentru succesul Anthropic în întreprindere. Dar Gemini 2.5 oferă un avantaj important: o fereastră masivă de context token de până la 1 milion. Claude 3.7 Sonnet oferă în prezent doar 500.000 de jetoane.
Această fereastră de context mare deschide noi posibilități de raționament în întreaga bază de cod, citirea documentației online și lucrul pe mai multe fișiere interdependente. Experiența inginerului de software Simon Willison demonstrează acest avantaj.
Când folosiți Gemini 2.5 Pro pentru a implementa o nouă caracteristică în baza noastră de cod, modelul a identificat modificările necesare în 18 fișiere diferite și a finalizat întregul proiect în aproximativ 45 de minute, cu o medie de mai puțin de 3 minute pentru fiecare fișier modificat. Acesta este un instrument serios pentru companiile care experimentează cu cadre de agenți sau medii de dezvoltare bazate pe inteligență artificială.
4. Integrare cu mai multe metode cu comportament asemănător unui agent
În timp ce unele modele precum cel mai recent OpenAI 4o ar putea arăta mai mult bliț cu generarea de imagini atrăgătoare, Gemini 2.5 Pro pare că redefinește în liniște cum arată raționamentul multimodal.
Într-un exemplu, un experiment practic realizat de Ben Dickson pentru VentureBeat a demonstrat capacitatea modelului de a extrage informații cheie dintr-o lucrare tehnică despre algoritmii de căutare și de a genera o diagramă de flux SVG corespunzătoare - apoi îmbunătăți acea diagramă de flux atunci când este afișată o versiune redată cu erori vizuale. Acest nivel de raționament multimodal permite crearea de noi fluxuri de lucru care anterior nu erau posibile cu modelele doar text.
Într-un alt exemplu, dezvoltatorul Sam Witteveen a încărcat o captură de ecran simplă a unei hărți din Las Vegas și a întrebat ce evenimente Google au avut loc în apropiere pe 9 aprilie. Modelul a identificat locația, a dedus intenția utilizatorului, a căutat online și a returnat detalii precise despre Google Cloud Next, inclusiv data, locația și citarea. Toate acestea se fac fără un cadru de agent personalizat, doar modelul de bază și căutarea încorporată.
De fapt, acest model de raționament de intrare multimodal depășește doar privirea lui. Acesta sugerează cum ar putea arăta un flux de lucru de afaceri în 6 luni: încărcați documente, diagrame și tablouri de bord și lăsați modelul să sintetizeze, să planifice sau să ia măsuri semnificative pe baza conținutului.