Home
» Wiki
»
Cerebras lansează cea mai rapidă tehnologie de inferență AI din lume, performanță de 20 ori mai mare decât NVIDIA
Cerebras lansează cea mai rapidă tehnologie de inferență AI din lume, performanță de 20 ori mai mare decât NVIDIA
Cerebras Systems tocmai a anunțat oficial Cerebras Inference, care este considerată cea mai rapidă soluție de inferență AI din lume. Această Cerebras Inference oferă performanțe de până la 1.800 de jetoane pe secundă pentru modelele Llama 3.1 8B (8 miliarde de parametri) și 450 de jetoane pe secundă pentru Llama 3.1 70B, ceea ce este de aproape 20 de ori mai rapid decât soluțiile de inferență AI bazate pe GPU NVIDIA, inclusiv soluțiile de inferență AI bazate pe GPU-uri NVIDIA, inclusiv soluțiile de inferență AI la scară largă Microsoft Azure.
Pe lângă performanța sa incredibilă, prețul serviciului acestei noi soluții de inferență este, de asemenea, foarte ieftin, la o fracțiune din prețul platformelor populare de cloud GPU. De exemplu, un client poate obține un milion de jetoane pentru doar 10 cenți, oferind astfel o performanță de preț de 100 de ori mai mare pentru sarcinile de lucru AI.
Precizia de 16 biți a Cerebras și viteza de inferență de 20 ori mai mare le vor permite dezvoltatorilor să construiască aplicații AI de înaltă generație de înaltă generație, fără a compromite viteza sau costul. Acest raport revoluționar preț/performanță este posibil de sistemul Cerebras CS-3 și de procesorul AI Wafer Scale Engine 3 (WSE-3). CS-3 oferă de 7.000 de ori mai multă lățime de bandă de memorie decât Nvidia H100, rezolvând provocarea tehnică a lățimii de bandă a memoriei pentru IA generativă.
Cerebras Inference este disponibilă în prezent la următoarele trei niveluri:
Nivelul gratuit oferă acces gratuit la API și limite generoase de utilizare pentru oricine se înscrie.
Nivelul pentru dezvoltatori este conceput pentru implementări flexibile, fără server, oferind utilizatorilor puncte finale API la o fracțiune din costul alternativelor existente pe piață, cu modelele Llama 3.1 8B și 70B la prețuri de doar 10 cenți și, respectiv, 60 de cenți per milion de jetoane.
Planurile Enterprise Tier oferă modele ajustate, acorduri personalizate de nivel de servicii și asistență dedicată. Ideale pentru sarcinile de lucru persistente, companiile pot accesa Cerebras Inference prin cloud-ul privat gestionat de Cerebras sau on-premise.
Cu performanță record, prețuri competitive și acces deschis la API, Cerebras Inference stabilește un nou standard pentru dezvoltarea și implementarea LLM deschisă. Fiind singura soluție capabilă să ofere atât antrenament de mare viteză, cât și inferență, Cerebras deschide posibilități complet noi pentru AI.
Cu tendințele AI care evoluează rapid și NVIDIA deține în prezent o poziție dominantă pe piață, apariția unor companii precum Cerebras și Groq semnalează o potențială schimbare în dinamica întregii industrii. Pe măsură ce cererea pentru soluții de inferență AI mai rapide și mai rentabile crește, soluții precum Cerebras Inference sunt bine poziționate pentru a risca dominația NVIDIA, în special în spațiul de inferență.