Google susține că Gemini 2.5 depășește cele mai bune modele de la OpenAI, DeepSeek și alți giganți ai tehnologiei AI

Google tocmai a introdus Gemini 2.5, pe care compania îl numește „cel mai inteligent model AI de până acum”. Prima versiune a modelului a fost Gemini 2.5 Pro, care a obținut scoruri de referință impresionante în multe teste.

Google susține că Gemini 2.5 depășește cele mai bune modele de la OpenAI, DeepSeek și alți giganți ai tehnologiei AI

Gemini 2.5 Pro este disponibil acum prin Google AI Studio și în aplicația Gemini dacă sunteți utilizator Gemini Advanced . Gemini 2.5 Pro va fi disponibil și prin Vertex AI în viitorul apropiat.

Google nu a împărtășit prețurile pentru Gemini 2.5 Pro sau alte modele Gemini 2.5 în acest moment.

Toate modelele care folosesc Gemini 2.5 sunt „modele gânditoare”, adică pot procesa procesul de gândire înainte de a genera un răspuns. Aceste modele de „raționament” sunt următorul mare pas în spațiul AI, deoarece generează răspunsuri mai complexe și adesea mai precise.

„Acum, cu Gemini 2.5, am atins un nou nivel de performanță, combinând un model de bază semnificativ îmbunătățit cu un post-antrenament îmbunătățit ”, a spus Google.

„În viitor, vom construi aceste capacități de gândire direct în toate modelele noastre, astfel încât să poată face față unor probleme mai complexe și să sprijine agenții cu o conștientizare și mai bună a contextului . ”

Cum se compară Gemini 2.5 cu modelele OpenAI?

Google susține că Gemini 2.5 depășește cele mai bune modele de la OpenAI, DeepSeek și alți giganți ai tehnologiei AI
Google Gemini 2.5 Benchmark

Modelele Google Gemini 2.5 Pro depășesc modelele anterioare de top de la OpenAI și DeepSeek.

Scorurile de referință pentru Gemini 2.5 împărtășite de Google sunt destul de impresionante. Gemini 2.5 Pro Experimental a obținut un scor de 18,5% la Ultimul examen al umanității.

Acest scor înseamnă că, cel puțin deocamdată, Gemini 2.5 Pro Experimental este cel mai bun model după acea măsură. Scorul său depășește OpenAI 03-mini (14%) și DeepSeek R1 (8,6%).

Acest test special este considerat dificil, deși nu este singura modalitate de a măsura performanța unui model AI.

Google a evidențiat, de asemenea, capacitățile de programare ale Gemini 2.5 Pro și punctele de referință ale modelului în matematică și știință. Gemini 2.5 Pro este în prezent lider în comparațiile matematice și științifice, măsurate prin GPQA și AIME 2025.

Este posibil să programați în Gemini 2.5?

Programarea este punctul central al Gemini 2.5. Google susține „un salt uriaș înainte de la 2.0” și arată că mai multe îmbunătățiri sunt pe cale.

Noul model Google poate crea aplicații web și aplicații de cod agentic. O demonstrație de la Google arată că Gemini 2.5 Pro este folosit pentru a crea un joc dintr-o singură linie promptă.

4 motive pentru care Google Gemini 2.5 Pro contează pentru Enterprise AI

Iată patru puncte cheie de reținut pentru echipele de întreprindere atunci când evaluează Gemini 2.5 Pro.

1. Raționament structurat, transparent – ​​un nou standard pentru claritatea gândirii

Ceea ce diferențiază Gemini 2.5 Pro nu este doar inteligența sa, ci și modul în care această inteligență își demonstrează în mod clar funcționarea. Metoda de antrenament pas cu pas de la Google creează un tren structurat de gândire (CoT) care nu seamănă cu divagații sau presupuneri, așa cum am văzut de la modele precum DeepSeek . Aceste CoT-uri nu sunt trunchiate în rezumate superficiale precum modelele OpenAI. Noul model Gemeni prezintă idei în pași numerotați, cu sub-gloanțe și o logică internă extrem de clară și transparentă.

În termeni practici, aceasta este o descoperire în ceea ce privește fiabilitatea și navigabilitatea. Utilizatorii de afaceri care evaluează rezultatele pentru sarcini critice – cum ar fi revizuirea implicațiilor politicii, codificarea logicii sau rezumarea cercetărilor complexe – pot vedea acum cum a venit modelul cu răspunsul. Asta înseamnă că pot valida, corecta sau redirecționa răspunsurile cu mai multă încredere. Acesta este un mare pas înainte față de sentimentul „cutie neagră” care încă persistă în multe ieșiri ale modelului de limbă mare (LLM) .

Pentru un ghid mai aprofundat despre cum funcționează acest model, consultați detalierea video în care Gemini 2.5 Pro este testat live. Un exemplu discutat: Când a fost întrebat despre limitările modelelor mari de limbaj, Gemini 2.5 Pro a arătat o conștientizare remarcabilă. Acesta subliniază punctele slabe comune și le clasifică în domenii precum „intuiția fizică”, „sinteza unui nou concept”, „planificarea pe termen lung” și „nuanțarea etică”, oferind un cadru care ajută utilizatorii să înțeleagă ce știe modelul și cum să abordeze problema.

Echipele de inginerie ale întreprinderii pot folosi această capacitate pentru a:

  • Depanați lanțuri logice complexe în aplicațiile critice
  • O mai bună înțelegere a limitărilor modelului în domenii specifice
  • Furnizarea de decizii mai transparente bazate pe inteligența artificială părților interesate
  • Îmbunătățiți propria gândire critică studiind abordarea modelului

O limitare notabilă este că, deși acest raționament structurat este disponibil în aplicația Gemini și Google AI Studio, în prezent nu este accesibil prin API - un dezavantaj pentru dezvoltatorii care doresc să integreze această capacitate în aplicațiile de întreprindere.

2. Un adevărat concurent pentru tehnologia de ultimă oră – nu doar în teorie

În prezent, modelul se află în fruntea clasamentului Chatbot Arena cu o marjă semnificativă – cu peste 35 de puncte Elo înaintea următorului cel mai bun model, în special actualizarea OpenAI 4o lansată a doua zi după lansarea Gemini 2.5 Pro. Și în timp ce dominația de referință este adesea trecătoare (pe măsură ce noi modele se lansează săptămânal), Gemini 2.5 Pro se simte cu adevărat diferit.

Google susține că Gemini 2.5 depășește cele mai bune modele de la OpenAI, DeepSeek și alți giganți ai tehnologiei AI

Excelează la sarcini care răsplătesc raționamentul profund: codificare, rezolvarea nuanțată a problemelor, rezumarea documentelor și chiar planificarea abstractă. În testarea internă, a avut rezultate deosebit de bune pe benchmark-uri anterior dificile, cum ar fi „Umanity’s Last Exam”, un etalon popular pentru detectarea punctelor slabe LLM în domenii abstracte și nuanțate.

Grupurilor de afaceri s-ar putea să nu le pese ce model câștigă care clasamente academice. Dar le va păsa că acest model poate gândi - și vă va arăta cum gândește. Testul de vibrații este foarte important.

După cum a remarcat respectatul inginer AI Nathan Lambert, „Google are din nou cele mai bune modele, pentru că ar fi trebuit să înceapă tot acest boom AI. Marea greșeală a fost remediată”. Utilizatorii de afaceri ar trebui să vadă acest lucru nu doar ca Google atingând concurenții, ci și posibil să îi depășească în capabilități care sunt importante pentru aplicațiile de afaceri.

3. În cele din urmă, jocul de criptare Google este puternic

În mod tradițional, Google a rămas în urma OpenAI și Anthropic în ceea ce privește suportul de codare axat pe dezvoltatori. Gemini 2.5 Pro schimbă asta.

În testele practice, a demonstrat capacități puternice de un singur pas în provocările de codificare, inclusiv construirea unui joc Tetris funcțional care a rulat la prima încercare când a fost exportat în Replit - nu este necesară depanarea. Mai remarcabil, explică clar structura codului, etichetează cu atenție variabilele și pașii și își prezintă abordarea înainte de a scrie o singură linie de cod.

Acest model concurează cu Claude 3.7 Sonnet de la Anthropic, care este considerat lider în generarea de coduri și este un motiv major pentru succesul Anthropic în întreprindere. Dar Gemini 2.5 oferă un avantaj important: o fereastră masivă de context token de până la 1 milion. Claude 3.7 Sonnet oferă în prezent doar 500.000 de jetoane.

Această fereastră de context mare deschide noi posibilități de raționament în întreaga bază de cod, citirea documentației online și lucrul pe mai multe fișiere interdependente. Experiența inginerului de software Simon Willison demonstrează acest avantaj.

Când folosiți Gemini 2.5 Pro pentru a implementa o nouă caracteristică în baza noastră de cod, modelul a identificat modificările necesare în 18 fișiere diferite și a finalizat întregul proiect în aproximativ 45 de minute, cu o medie de mai puțin de 3 minute pentru fiecare fișier modificat. Acesta este un instrument serios pentru companiile care experimentează cu cadre de agenți sau medii de dezvoltare bazate pe inteligență artificială.

4. Integrare cu mai multe metode cu comportament asemănător unui agent

În timp ce unele modele precum cel mai recent OpenAI 4o ar putea arăta mai mult bliț cu generarea de imagini atrăgătoare, Gemini 2.5 Pro pare că redefinește în liniște cum arată raționamentul multimodal.

Într-un exemplu, un experiment practic realizat de Ben Dickson pentru VentureBeat a demonstrat capacitatea modelului de a extrage informații cheie dintr-o lucrare tehnică despre algoritmii de căutare și de a genera o diagramă de flux SVG corespunzătoare - apoi îmbunătăți acea diagramă de flux atunci când este afișată o versiune redată cu erori vizuale. Acest nivel de raționament multimodal permite crearea de noi fluxuri de lucru care anterior nu erau posibile cu modelele doar text.

Într-un alt exemplu, dezvoltatorul Sam Witteveen a încărcat o captură de ecran simplă a unei hărți din Las Vegas și a întrebat ce evenimente Google au avut loc în apropiere pe 9 aprilie. Modelul a identificat locația, a dedus intenția utilizatorului, a căutat online și a returnat detalii precise despre Google Cloud Next, inclusiv data, locația și citarea. Toate acestea se fac fără un cadru de agent personalizat, doar modelul de bază și căutarea încorporată.

De fapt, acest model de raționament de intrare multimodal depășește doar privirea lui. Acesta sugerează cum ar putea arăta un flux de lucru de afaceri în 6 luni: încărcați documente, diagrame și tablouri de bord și lăsați modelul să sintetizeze, să planifice sau să ia măsuri semnificative pe baza conținutului.

Sign up and earn $1000 a day ⋙

Leave a Comment

Gmail adaugă bifa albastră pentru a verifica expeditorii „reputabili”.

Gmail adaugă bifa albastră pentru a verifica expeditorii „reputabili”.

Multă vreme, odată cu dezvoltarea și popularitatea platformelor de rețele sociale, „căpușa albastră” a devenit treptat unul dintre cele mai puternice personaje din lumea internetului.

Chromecast a murit oficial

Chromecast a murit oficial

Linia Chromecast de la Google a fost de multă vreme o alegere populară dacă doriți să vă înlocuiți experiența smart TV sau să transformați orice televizor într-un televizor inteligent.

Google adaugă o funcție pentru a deschide automat aplicațiile după instalare în Magazinul Play

Google adaugă o funcție pentru a deschide automat aplicațiile după instalare în Magazinul Play

Google adaugă o funcție nouă mică, dar mult așteptată în Magazinul Play.

Google anunță Android XR, o nouă platformă de sistem de operare pentru ochelari AR și VR

Google anunță Android XR, o nouă platformă de sistem de operare pentru ochelari AR și VR

După ani de neglijare, Google a decis în sfârșit să-și reorienteze investiția pe dispozitive cu realitate extinsă (XR) precum căștile și ochelarii.

5 motive pentru a încerca Google Gemini

5 motive pentru a încerca Google Gemini

Deși nu este la fel de discutat ca unii dintre concurenții săi, Gemini AI de la Google are multe de oferit - și iată cinci motive pentru care Gemini merită atenția ta.

Care producător de smartphone-uri are cele mai bune actualizări Android?

Care producător de smartphone-uri are cele mai bune actualizări Android?

Există mulți producători de Android, dar nu toți acordă atenție actualizărilor software. Deși situația s-a îmbunătățit în ultimul deceniu, nu toți producătorii de smartphone-uri oferă un suport software excelent.

Gemenii de la Google răspunde cu cuvinte ciudate, repetate, prostii unor utilizatori

Gemenii de la Google răspunde cu cuvinte ciudate, repetate, prostii unor utilizatori

Recent, unii utilizatori au observat că Google Gemini a dat text repetitiv, caractere ciudate și prostii complete în unele răspunsuri.

Google elimină accesul Gemini din aplicația Google pentru iPhone

Google elimină accesul Gemini din aplicația Google pentru iPhone

Aplicația Google pentru iPhone este pe cale să devină puțin mai puțin utilă, deoarece Google a eliminat recent accesul la Gemini AI din acea aplicație.

Ce se întâmplă dacă îți pierzi contul Google?

Ce se întâmplă dacă îți pierzi contul Google?

Pierderea accesului la contul dvs. Google poate avea consecințe grave, pe lângă faptul că nu puteți trimite și primi e-mailuri.

Google lansează funcția de creare video AI pe Gemini

Google lansează funcția de creare video AI pe Gemini

Google tocmai a anunțat că utilizatorii pot crea acum videoclipuri folosind inteligența artificială prin chatbot-ul său Gemini și instrumentul experimental lansat recent Whisk.

Google lansează Career Dreamer, cel mai recent instrument AI pentru a ajuta la alegerea carierei perfecte

Google lansează Career Dreamer, cel mai recent instrument AI pentru a ajuta la alegerea carierei perfecte

Indiferent dacă faci primii pași în forța de muncă sau faci tranziția către o nouă industrie, Career Dreamer experimental de la Google este conceput pentru a te conecta cu roluri compatibile.

Google dezvoltă un instrument de cumpărături AI care permite utilizatorilor să încerce rochii și cămăși acasă

Google dezvoltă un instrument de cumpărături AI care permite utilizatorilor să încerce rochii și cămăși acasă

Anul trecut, Google a introdus în Căutare un asistent de cumpărături bazat pe inteligență artificială, care permite utilizatorilor să își facă o idee vizuală despre cum ar arăta o piesă de îmbrăcăminte pe un anumit tip de corp.

Google dezvoltă un algoritm AI care poate diagnostica bolile de piele și tuberculoza

Google dezvoltă un algoritm AI care poate diagnostica bolile de piele și tuberculoza

Google și-a manifestat tot mai mult interes pentru domeniul aplicațiilor inteligenței artificiale în medicină.

Google confirmă problema cu Chromecast și Chromecast Audio de a doua generație

Google confirmă problema cu Chromecast și Chromecast Audio de a doua generație

După câteva zile de confuzie, Google a confirmat oficial problema atât cu Chromecastul de a doua generație, cât și cu Chromecast Audio.

Documentație publicată accidental de Google despre cum funcționează căutarea

Documentație publicată accidental de Google despre cum funcționează căutarea

Luni, s-au scurs documente interne care descriu factorii pe care Căutarea Google ia în considerare atunci când clasifică și afișează rezultatele web.

Diferența dintre televizorul obișnuit și Smart TV

Diferența dintre televizorul obișnuit și Smart TV

Televizoarele inteligente au luat cu adevărat lumea cu asalt. Cu atât de multe funcții grozave și conectivitate la internet, tehnologia a schimbat modul în care ne uităm la televizor.

De ce congelatorul nu are lumină, dar frigiderul are?

De ce congelatorul nu are lumină, dar frigiderul are?

Frigiderele sunt aparate cunoscute în gospodării. Frigiderele au de obicei 2 compartimente, compartimentul cool este spatios si are o lumina care se aprinde automat de fiecare data cand utilizatorul il deschide, in timp ce compartimentul congelator este ingust si nu are lumina.

2 moduri de a remedia congestionarea rețelei care încetinește conexiunea Wi-Fi

2 moduri de a remedia congestionarea rețelei care încetinește conexiunea Wi-Fi

Rețelele Wi-Fi sunt afectate de mulți factori, dincolo de routere, lățime de bandă și interferențe, dar există câteva modalități inteligente de a vă îmbunătăți rețeaua.

Cum să downgrade de la iOS 17 la iOS 16 fără a pierde date folosind Tenorshare Reiboot

Cum să downgrade de la iOS 17 la iOS 16 fără a pierde date folosind Tenorshare Reiboot

Dacă doriți să reveniți la iOS 16 stabil pe telefonul dvs., iată ghidul de bază pentru dezinstalarea iOS 17 și downgrade de la iOS 17 la 16.

Ce se întâmplă cu organismul când mănânci iaurt în fiecare zi?

Ce se întâmplă cu organismul când mănânci iaurt în fiecare zi?

Iaurtul este un aliment minunat. Este bine să mănânci iaurt în fiecare zi? Când mănânci iaurt în fiecare zi, cum se va schimba corpul tău? Să aflăm împreună!

Ce tip de orez este cel mai bun pentru sănătate?

Ce tip de orez este cel mai bun pentru sănătate?

Acest articol discută cele mai hrănitoare tipuri de orez și cum să maximizați beneficiile pentru sănătate ale orezului pe care îl alegeți.

Cum să te trezești la timp dimineața

Cum să te trezești la timp dimineața

Stabilirea unui program de somn și a rutinei de culcare, schimbarea ceasului cu alarmă și ajustarea dietei sunt câteva dintre măsurile care vă pot ajuta să dormiți mai bine și să vă treziți la timp dimineața.

Sfaturi pentru a juca Rent Please! Proprietar Sim pentru începători

Sfaturi pentru a juca Rent Please! Proprietar Sim pentru începători

Inchiriez va rog! Landlord Sim este un joc mobil de simulare pe iOS și Android. Veți juca ca proprietarul unui complex de apartamente și veți începe să închiriați un apartament cu scopul de a îmbunătăți interiorul apartamentelor și de a le pregăti pentru chiriași.

Cele mai recente coduri de apărare a turnului de baie și cum să introduceți codurile

Cele mai recente coduri de apărare a turnului de baie și cum să introduceți codurile

Obțineți codul de joc Roblox Bathroom Tower Defense și răscumpărați pentru recompense interesante. Ele vă vor ajuta să faceți upgrade sau să deblocați turnuri cu daune mai mari.

Structura, simbolurile și principiile de funcționare ale transformatoarelor

Structura, simbolurile și principiile de funcționare ale transformatoarelor

Să învățăm despre structura, simbolurile și principiile de funcționare ale transformatoarelor în cel mai precis mod.

4 moduri prin care AI face televizoarele inteligente mai bune

4 moduri prin care AI face televizoarele inteligente mai bune

De la o calitate mai bună a imaginii și a sunetului la controlul vocal și multe altele, aceste funcții bazate pe inteligență artificială fac televizoarele inteligente mult mai bune!

De ce ChatGPT este mai bun decât DeepSeek

De ce ChatGPT este mai bun decât DeepSeek

Inițial, oamenii aveau mari speranțe în DeepSeek. Fiind un chatbot AI comercializat ca un concurent puternic pentru ChatGPT, acesta promite capacități și experiențe inteligente de chat.

Faceți cunoștință cu Fireflies.ai: Secretarul AI gratuit care vă scutește de ore de muncă

Faceți cunoștință cu Fireflies.ai: Secretarul AI gratuit care vă scutește de ore de muncă

Este ușor să ratezi detalii importante atunci când notezi alte elemente esențiale, iar încercarea de a lua notițe în timpul conversației poate fi distragerea atenției. Fireflies.ai este soluția.

Cum să crești Axolotl Minecraft, îmblânziți Minecraft Salamander

Cum să crești Axolotl Minecraft, îmblânziți Minecraft Salamander

Axolot Minecraft va fi un asistent excelent pentru jucători atunci când operează sub apă, dacă știu să le folosească.

A Quiet Place: The Road Ahead Configurația jocului PC

A Quiet Place: The Road Ahead Configurația jocului PC

Un loc liniștit: configurația Road Ahead este foarte apreciată, așa că va trebui să luați în considerare configurația înainte de a decide să descărcați.