Amazon a prezentat astăzi Nova Sonic, un model avansat de vorbire la vorbire care le permite dezvoltatorilor să creeze aplicații care pot conversa cu voci asemănătoare oamenilor în timp real. Amazon susține că acest nou model audio se mândrește cu o performanță de preț de lider în industrie și o latență scăzută.
De obicei, dezvoltarea unei aplicații cu voce activată necesită dezvoltatorilor să lucreze cu mai multe modele în același timp:
- Model de recunoaștere a vorbirii pentru conversia audio în text.
- Large Language Model (LLM) pentru înțelegerea și generarea de răspunsuri.
- Model text-to-speech.
Această abordare nu este doar complexă, dar deseori ratează contexte acustice importante, cum ar fi tonul, prozodia și stilul de vorbire.

Nova Sonic abordează această provocare integrând înțelegerea și generarea sunetului într-un singur model. Abordarea unificată ajută modelul să capteze tonul, stilul și intrarea audio, creând un dialog mai natural. De asemenea, determină timpul de răspuns adecvat și gestionează mai bine barge-in-urile.
Nova Sonic acceptă atât voci masculine, cât și voci feminine, cu multe accente englezești, cum ar fi american, britanic. Dezvoltatorii pot accesa modele prin Amazon Bedrock folosind un API de streaming bidirecțional care acceptă apelarea funcțiilor. Acest model vine și cu funcții de protecție încorporate, cum ar fi moderarea conținutului și filigranul.
În acest sens, luna trecută OpenAI a anunțat o nouă generație de modele de vorbire în text – gpt-4o-transcribe și gpt-4o-mini-transcribe – cu îmbunătățiri semnificative în rata de eroare a cuvintelor, recunoașterea limbii și acuratețea față de modelele Whisper anterioare.