Google susține că Gemini 2.5 depășește cele mai bune modele de la OpenAI, DeepSeek și alți giganți ai tehnologiei AI

Google tocmai a introdus Gemini 2.5, pe care compania îl numește „cel mai inteligent model AI de până acum”. Prima versiune a modelului a fost Gemini 2.5 Pro, care a obținut scoruri de referință impresionante în multe teste.

Google susține că Gemini 2.5 depășește cele mai bune modele de la OpenAI, DeepSeek și alți giganți ai tehnologiei AI

Gemini 2.5 Pro este disponibil acum prin Google AI Studio și în aplicația Gemini dacă sunteți utilizator Gemini Advanced . Gemini 2.5 Pro va fi disponibil și prin Vertex AI în viitorul apropiat.

Google nu a împărtășit prețurile pentru Gemini 2.5 Pro sau alte modele Gemini 2.5 în acest moment.

Toate modelele care folosesc Gemini 2.5 sunt „modele gânditoare”, adică pot procesa procesul de gândire înainte de a genera un răspuns. Aceste modele de „raționament” sunt următorul mare pas în spațiul AI, deoarece generează răspunsuri mai complexe și adesea mai precise.

„Acum, cu Gemini 2.5, am atins un nou nivel de performanță, combinând un model de bază semnificativ îmbunătățit cu un post-antrenament îmbunătățit ”, a spus Google.

„În viitor, vom construi aceste capacități de gândire direct în toate modelele noastre, astfel încât să poată face față unor probleme mai complexe și să sprijine agenții cu o conștientizare și mai bună a contextului . ”

Cum se compară Gemini 2.5 cu modelele OpenAI?

Google susține că Gemini 2.5 depășește cele mai bune modele de la OpenAI, DeepSeek și alți giganți ai tehnologiei AI
Google Gemini 2.5 Benchmark

Modelele Google Gemini 2.5 Pro depășesc modelele anterioare de top de la OpenAI și DeepSeek.

Scorurile de referință pentru Gemini 2.5 împărtășite de Google sunt destul de impresionante. Gemini 2.5 Pro Experimental a obținut un scor de 18,5% la Ultimul examen al umanității.

Acest scor înseamnă că, cel puțin deocamdată, Gemini 2.5 Pro Experimental este cel mai bun model după acea măsură. Scorul său depășește OpenAI 03-mini (14%) și DeepSeek R1 (8,6%).

Acest test special este considerat dificil, deși nu este singura modalitate de a măsura performanța unui model AI.

Google a evidențiat, de asemenea, capacitățile de programare ale Gemini 2.5 Pro și punctele de referință ale modelului în matematică și știință. Gemini 2.5 Pro este în prezent lider în comparațiile matematice și științifice, măsurate prin GPQA și AIME 2025.

Este posibil să programați în Gemini 2.5?

Programarea este punctul central al Gemini 2.5. Google susține „un salt uriaș înainte de la 2.0” și arată că mai multe îmbunătățiri sunt pe cale.

Noul model Google poate crea aplicații web și aplicații de cod agentic. O demonstrație de la Google arată că Gemini 2.5 Pro este folosit pentru a crea un joc dintr-o singură linie promptă.

4 motive pentru care Google Gemini 2.5 Pro contează pentru Enterprise AI

Iată patru puncte cheie de reținut pentru echipele de întreprindere atunci când evaluează Gemini 2.5 Pro.

1. Raționament structurat, transparent – ​​un nou standard pentru claritatea gândirii

Ceea ce diferențiază Gemini 2.5 Pro nu este doar inteligența sa, ci și modul în care această inteligență își demonstrează în mod clar funcționarea. Metoda de antrenament pas cu pas de la Google creează un tren structurat de gândire (CoT) care nu seamănă cu divagații sau presupuneri, așa cum am văzut de la modele precum DeepSeek . Aceste CoT-uri nu sunt trunchiate în rezumate superficiale precum modelele OpenAI. Noul model Gemeni prezintă idei în pași numerotați, cu sub-gloanțe și o logică internă extrem de clară și transparentă.

În termeni practici, aceasta este o descoperire în ceea ce privește fiabilitatea și navigabilitatea. Utilizatorii de afaceri care evaluează rezultatele pentru sarcini critice – cum ar fi revizuirea implicațiilor politicii, codificarea logicii sau rezumarea cercetărilor complexe – pot vedea acum cum a venit modelul cu răspunsul. Asta înseamnă că pot valida, corecta sau redirecționa răspunsurile cu mai multă încredere. Acesta este un mare pas înainte față de sentimentul „cutie neagră” care încă persistă în multe ieșiri ale modelului de limbă mare (LLM) .

Pentru un ghid mai aprofundat despre cum funcționează acest model, consultați detalierea video în care Gemini 2.5 Pro este testat live. Un exemplu discutat: Când a fost întrebat despre limitările modelelor mari de limbaj, Gemini 2.5 Pro a arătat o conștientizare remarcabilă. Acesta subliniază punctele slabe comune și le clasifică în domenii precum „intuiția fizică”, „sinteza unui nou concept”, „planificarea pe termen lung” și „nuanțarea etică”, oferind un cadru care ajută utilizatorii să înțeleagă ce știe modelul și cum să abordeze problema.

Echipele de inginerie ale întreprinderii pot folosi această capacitate pentru a:

  • Depanați lanțuri logice complexe în aplicațiile critice
  • O mai bună înțelegere a limitărilor modelului în domenii specifice
  • Furnizarea de decizii mai transparente bazate pe inteligența artificială părților interesate
  • Îmbunătățiți propria gândire critică studiind abordarea modelului

O limitare notabilă este că, deși acest raționament structurat este disponibil în aplicația Gemini și Google AI Studio, în prezent nu este accesibil prin API - un dezavantaj pentru dezvoltatorii care doresc să integreze această capacitate în aplicațiile de întreprindere.

2. Un adevărat concurent pentru tehnologia de ultimă oră – nu doar în teorie

În prezent, modelul se află în fruntea clasamentului Chatbot Arena cu o marjă semnificativă – cu peste 35 de puncte Elo înaintea următorului cel mai bun model, în special actualizarea OpenAI 4o lansată a doua zi după lansarea Gemini 2.5 Pro. Și în timp ce dominația de referință este adesea trecătoare (pe măsură ce noi modele se lansează săptămânal), Gemini 2.5 Pro se simte cu adevărat diferit.

Google susține că Gemini 2.5 depășește cele mai bune modele de la OpenAI, DeepSeek și alți giganți ai tehnologiei AI

Excelează la sarcini care răsplătesc raționamentul profund: codificare, rezolvarea nuanțată a problemelor, rezumarea documentelor și chiar planificarea abstractă. În testarea internă, a avut rezultate deosebit de bune pe benchmark-uri anterior dificile, cum ar fi „Umanity’s Last Exam”, un etalon popular pentru detectarea punctelor slabe LLM în domenii abstracte și nuanțate.

Grupurilor de afaceri s-ar putea să nu le pese ce model câștigă care clasamente academice. Dar le va păsa că acest model poate gândi - și vă va arăta cum gândește. Testul de vibrații este foarte important.

După cum a remarcat respectatul inginer AI Nathan Lambert, „Google are din nou cele mai bune modele, pentru că ar fi trebuit să înceapă tot acest boom AI. Marea greșeală a fost remediată”. Utilizatorii de afaceri ar trebui să vadă acest lucru nu doar ca Google atingând concurenții, ci și posibil să îi depășească în capabilități care sunt importante pentru aplicațiile de afaceri.

3. În cele din urmă, jocul de criptare Google este puternic

În mod tradițional, Google a rămas în urma OpenAI și Anthropic în ceea ce privește suportul de codare axat pe dezvoltatori. Gemini 2.5 Pro schimbă asta.

În testele practice, a demonstrat capacități puternice de un singur pas în provocările de codificare, inclusiv construirea unui joc Tetris funcțional care a rulat la prima încercare când a fost exportat în Replit - nu este necesară depanarea. Mai remarcabil, explică clar structura codului, etichetează cu atenție variabilele și pașii și își prezintă abordarea înainte de a scrie o singură linie de cod.

Acest model concurează cu Claude 3.7 Sonnet de la Anthropic, care este considerat lider în generarea de coduri și este un motiv major pentru succesul Anthropic în întreprindere. Dar Gemini 2.5 oferă un avantaj important: o fereastră masivă de context token de până la 1 milion. Claude 3.7 Sonnet oferă în prezent doar 500.000 de jetoane.

Această fereastră de context mare deschide noi posibilități de raționament în întreaga bază de cod, citirea documentației online și lucrul pe mai multe fișiere interdependente. Experiența inginerului de software Simon Willison demonstrează acest avantaj.

Când folosiți Gemini 2.5 Pro pentru a implementa o nouă caracteristică în baza noastră de cod, modelul a identificat modificările necesare în 18 fișiere diferite și a finalizat întregul proiect în aproximativ 45 de minute, cu o medie de mai puțin de 3 minute pentru fiecare fișier modificat. Acesta este un instrument serios pentru companiile care experimentează cu cadre de agenți sau medii de dezvoltare bazate pe inteligență artificială.

4. Integrare cu mai multe metode cu comportament asemănător unui agent

În timp ce unele modele precum cel mai recent OpenAI 4o ar putea arăta mai mult bliț cu generarea de imagini atrăgătoare, Gemini 2.5 Pro pare că redefinește în liniște cum arată raționamentul multimodal.

Într-un exemplu, un experiment practic realizat de Ben Dickson pentru VentureBeat a demonstrat capacitatea modelului de a extrage informații cheie dintr-o lucrare tehnică despre algoritmii de căutare și de a genera o diagramă de flux SVG corespunzătoare - apoi îmbunătăți acea diagramă de flux atunci când este afișată o versiune redată cu erori vizuale. Acest nivel de raționament multimodal permite crearea de noi fluxuri de lucru care anterior nu erau posibile cu modelele doar text.

Într-un alt exemplu, dezvoltatorul Sam Witteveen a încărcat o captură de ecran simplă a unei hărți din Las Vegas și a întrebat ce evenimente Google au avut loc în apropiere pe 9 aprilie. Modelul a identificat locația, a dedus intenția utilizatorului, a căutat online și a returnat detalii precise despre Google Cloud Next, inclusiv data, locația și citarea. Toate acestea se fac fără un cadru de agent personalizat, doar modelul de bază și căutarea încorporată.

De fapt, acest model de raționament de intrare multimodal depășește doar privirea lui. Acesta sugerează cum ar putea arăta un flux de lucru de afaceri în 6 luni: încărcați documente, diagrame și tablouri de bord și lăsați modelul să sintetizeze, să planifice sau să ia măsuri semnificative pe baza conținutului.

Sign up and earn $1000 a day ⋙

Leave a Comment

Google lansează Career Dreamer, cel mai recent instrument AI pentru a ajuta la alegerea carierei perfecte

Google lansează Career Dreamer, cel mai recent instrument AI pentru a ajuta la alegerea carierei perfecte

Indiferent dacă faci primii pași în forța de muncă sau faci tranziția către o nouă industrie, Career Dreamer experimental de la Google este conceput pentru a te conecta cu roluri compatibile.

Google dezvoltă un instrument de cumpărături AI care permite utilizatorilor să încerce rochii și cămăși acasă

Google dezvoltă un instrument de cumpărături AI care permite utilizatorilor să încerce rochii și cămăși acasă

Anul trecut, Google a introdus în Căutare un asistent de cumpărături bazat pe inteligență artificială, care permite utilizatorilor să își facă o idee vizuală despre cum ar arăta o piesă de îmbrăcăminte pe un anumit tip de corp.

Google dezvoltă un algoritm AI care poate diagnostica bolile de piele și tuberculoza

Google dezvoltă un algoritm AI care poate diagnostica bolile de piele și tuberculoza

Google și-a manifestat tot mai mult interes pentru domeniul aplicațiilor inteligenței artificiale în medicină.

Google confirmă problema cu Chromecast și Chromecast Audio de a doua generație

Google confirmă problema cu Chromecast și Chromecast Audio de a doua generație

După câteva zile de confuzie, Google a confirmat oficial problema atât cu Chromecastul de a doua generație, cât și cu Chromecast Audio.

Documentație publicată accidental de Google despre cum funcționează căutarea

Documentație publicată accidental de Google despre cum funcționează căutarea

Luni, s-au scurs documente interne care descriu factorii pe care Căutarea Google ia în considerare atunci când clasifică și afișează rezultatele web.

Cum să activați și să utilizați Asistentul Google pe Chrome Android

Cum să activați și să utilizați Asistentul Google pe Chrome Android

Google renunță treptat la vechea tehnologie de recunoaștere a vocii și o înlocuiește cu asistentul său virtual.

Samsung lansează tehnologia de sunet 3D Eclipsa Audio, concurând direct cu Dolby Atmos

Samsung lansează tehnologia de sunet 3D Eclipsa Audio, concurând direct cu Dolby Atmos

Samsung Electronics a anunțat planuri de a integra Eclipsa Audio, o tehnologie audio 3D nou-nouță, dezvoltată printr-un parteneriat cu Google, în gama sa de televizoare și bare de sunet din 2025.

Google anunță 6 funcții noi care vin pe telefoanele Android

Google anunță 6 funcții noi care vin pe telefoanele Android

Google a anunțat astăzi șase funcții noi care vor veni pe smartphone-urile Android.

Ce este Privacy Dashboard pe Android 12? De ce este aceasta o descoperire în intimitate?

Ce este Privacy Dashboard pe Android 12? De ce este aceasta o descoperire în intimitate?

Securitatea și confidențialitatea devin din ce în ce mai multe preocupări majore pentru utilizatorii de smartphone-uri în general.

Căutarea ChatGPT sau Google este mai bun?

Căutarea ChatGPT sau Google este mai bun?

Mulți oameni au încercat de mult timp să vadă dacă pot înlocui cu adevărat Google cu extensia ChatGPT Search Chrome.

Google elimină oficial extensiile Manifest V2 din Chrome

Google elimină oficial extensiile Manifest V2 din Chrome

A trecut mult timp și a venit ziua în sfârșit. Oamenii raportează că vechea lor extensie Manifest v2 este eliminată din Chrome. Deci ce acum?

Google lansează actualizarea Pixel din decembrie, cea mai mare parte legată de Gemeni

Google lansează actualizarea Pixel din decembrie, cea mai mare parte legată de Gemeni

Această ultimă actualizare introduce îmbunătățiri legate de cameră, instrumente audio și vizuale și, cel mai important, Gemini, asistentul AI al Google.

9 aplicații Google utile care nu vin preinstalate pe telefoanele Android

9 aplicații Google utile care nu vin preinstalate pe telefoanele Android

Dacă vă plac serviciile Google, aceste aplicații mai puțin cunoscute pot adăuga o valoare surprinzătoare dispozitivului dvs.

Google se desparte de Qualcomm, optează pentru modemul 5G al MediaTek pentru seria Pixel 10

Google se desparte de Qualcomm, optează pentru modemul 5G al MediaTek pentru seria Pixel 10

Google a decis să pună capăt parteneriatului său de lungă durată cu Qualcomm și să folosească în schimb modemul MediaTek T900 în seria Pixel 10.

Căutarea socială a Perplexity are nevoie de aceste 3 funcții pentru a concura cu Google

Căutarea socială a Perplexity are nevoie de aceste 3 funcții pentru a concura cu Google

Motorul de căutare obișnuit al lui Perplexity este grozav, dar funcția de căutare socială lasă mult de dorit. Înainte ca Perplexity să se poată gândi măcar să concureze cu Google în acest domeniu, are nevoie de aceste noi funcții.

Prima persoană care a avut ChatGPT implantat în creier pentru a ajuta la manipularea dispozitivelor electronice

Prima persoană care a avut ChatGPT implantat în creier pentru a ajuta la manipularea dispozitivelor electronice

ChatGPT este testat de Synchron, unul dintre pionierii cipurilor pentru implanturi cerebrale (BCI) pentru a ajuta pacienții să manipuleze dispozitivele electronice.

Cum AI Art Generators îmbunătățesc fotografiile tale de zi cu zi

Cum AI Art Generators îmbunătățesc fotografiile tale de zi cu zi

Vrei să schimbi aspectul fotografiilor tale de zi cu zi? Instrumentele de creație de artă AI pot adăuga o notă unică și creativă pe care s-ar putea să nu o obțineți cu editarea manuală.

5 motive pentru care Aria AI de la Opera este utilă

5 motive pentru care Aria AI de la Opera este utilă

Mulți oameni nu le place AI pentru că doresc să citească datele brute și să le analizeze ei înșiși. Cu toate acestea, încercați Aria AI de la Opera când sunteți blocat cu o sarcină obositoare și aveți nevoie de idei. Iată de ce Aria AI de la Opera este utilă!

Cel mai recent cod pentru House of Flying Daggers și cum să răscumpărați codul

Cel mai recent cod pentru House of Flying Daggers și cum să răscumpărați codul

Codul Thap Dien Mai Phuc le oferă jucătorilor Kim Nguyen Bao, Hoan Khon Halo, Aur, Huyen Tinh, Huyen Tinh Chest

Black Myth: Wukong fură recordul de la Cyberpunk 2077

Black Myth: Wukong fură recordul de la Cyberpunk 2077

Cu o mulțime de recenzii în mare parte pozitive, nu este surprinzător faptul că Black Myth: Wukong a doborât recorduri pe Steam.

Aflați despre codul de eroare 0xc00000e și cum să îl remediați

Aflați despre codul de eroare 0xc00000e și cum să îl remediați

Temutul cod de eroare Blue Screen of Death (BSOD) 0xc00000e, care apare adesea la pornirea Windows 10, poate fi confuz.

Spațiu Play Together, denumește spațiul Play Together

Spațiu Play Together, denumește spațiul Play Together

Mulți oameni folosesc spații în numele lor Play Together sau folosesc litere de subliniere mici pentru a crea spații între literele pe care le scrii în numele tău.

Cum să descărcați Black Beacon PC

Cum să descărcați Black Beacon PC

Deși este pe deplin posibil să experimentezi Black Beacon pe PC, jocul nu este optimizat oficial pentru această platformă în acest moment.

Formula de calcul al suprafeței și al volumului sferei

Formula de calcul al suprafeței și al volumului sferei

Aria suprafeței unei sfere este de patru ori aria unui cerc mare, care este de patru ori constanta Pi înmulțită cu pătratul razei sferei.

Ce este special la costumul spațial ales de China pentru prima aterizare cu echipaj uman pe Lună?

Ce este special la costumul spațial ales de China pentru prima aterizare cu echipaj uman pe Lună?

China își propune să-și trimită primii cetățeni pe Lună până în 2030, iar țara tocmai a dezvăluit un costum spațial nou proiectat, care va fi folosit în viitoarea misiune istorică.

Alimente care provoacă ușor inflamații în organism

Alimente care provoacă ușor inflamații în organism

Multe alimente pot provoca inflamații și boli cronice. Mai jos sunt alimente pe care ar trebui să evitați să le consumați prea mult dacă nu doriți să aduceți boli în organism.

Instrucțiuni despre cum să joci Zuka Lien Quan Mobile sezonul S1 2023

Instrucțiuni despre cum să joci Zuka Lien Quan Mobile sezonul S1 2023

Zuka este un asasin despre care se știe că este o teroare pentru campionii cu sănătate scăzută. Învață cum să folosești Zuka eficient în sezonul 23.

Cel mai recent cod de epocă eroică și cum să răscumpărați codul

Cel mai recent cod de epocă eroică și cum să răscumpărați codul

Primirea de cadouri prin codurile cadou Heroic Age este ceea ce fac aproape toți jucătorii noi când se alătură jocului.

8 cei mai ieftini furnizori de stocare în cloud

8 cei mai ieftini furnizori de stocare în cloud

Să aruncăm o privire la cele mai ieftine opțiuni de stocare online în cloud disponibile. Acest articol va analiza prețurile atât în ​​termeni absoluti, cât și pe gigabyte (pe lună), astfel încât să puteți alege ce este cel mai bine pentru dvs.

Care este eroarea semnului lire sterline (####) în Excel?

Care este eroarea semnului lire sterline (####) în Excel?

#### în Excel este o eroare comună în Excel și apare în multe cazuri diferite când introducem date în Excel, funcții în Excel, introducem formule în Excel.