Nvidia tocmai a anunțat lansarea unui model de limbă mare (LLM) open-source despre care se spune că va funcționa la egalitate cu modelele proprietare de top de la OpenAI, Anthropic, Meta și Google.
Acest nou model se numește NVLM-D-72B cu 72 de miliarde de parametri și face parte din marea familie de modele de limbaj NVLM 1.0 lansată recent de Nvidia. NVLM 1.0 este în esență o familie de modele de limbaj multimodale mari, la limită, care obțin rezultate de ultimă generație în sarcinile de limbaj vizual, concurând cu modele proprietare de top (de exemplu, GPT-4o), precum și cu modele de acces deschis.
Această nouă familie de modele mari de limbaj are „capacități multimodale de nivel industrial”, cu performanțe superioare la o varietate de sarcini vizuale și lingvistice, pe lângă îmbunătățirea semnificativă a feedback-ului bazat pe text. „Pentru a realiza acest lucru, creăm și integrăm un set de date de înaltă calitate doar text în procesul de instruire multimodal, împreună cu o cantitate mare de date matematice și de raționament multimodale, ceea ce duce la capacități matematice și de codare îmbunătățite în mai multe modalități”, au explicat cercetătorii Nvidia într-o declarație.
Rezultatul este un LLM de înaltă performanță care poate îndeplini sarcini la fel de simple precum explicarea de ce o meme este amuzantă, până la ecuații matematice complexe, pas cu pas. Nvidia a reușit, de asemenea, să mărească acuratețea modelului doar cu text cu o medie de 4,3 puncte peste valorile de referință din industrie, datorită stilului său de antrenament multimodal.

Nvidia pare să fie serioasă în a se asigura că acest model îndeplinește cea mai recentă definiție a „open source” a Open Source Initiative, nu doar făcând publice greutățile de antrenament pentru revizuirea comunității, ci și promițând că va lansa codul sursă al modelului în viitorul apropiat. Aceasta este o abatere semnificativă de la abordarea concurenților precum OpenAI și Google, care au fost foarte strânși în privința păstrării private a detaliilor despre greutățile și codul sursă al modelelor lor LLM. Făcând acest lucru, Nvidia a poziționat NVLM nu neapărat ca un concurent direct al ChatGPT-4o și Gemini 1.5 Pro, ci ca o platformă pentru dezvoltatorii terți pentru a-și construi propriile chatbot și aplicații AI.