AI învață să păcălească oamenii, în ciuda faptului că este antrenat să fie sincer

Multe IA de top, în ciuda faptului că sunt antrenate să fie sincere, învață să înșele prin antrenament și „induc sistematic utilizatorii în convingeri false”, arată un nou studiu.

Echipa de cercetare a fost condusă de dr. Peter S. Park, un student absolvent la Massachusetts Institute of Technology (MIT) în domeniul supraviețuirii și siguranței AI, și alți patru membri. În timpul cercetării, echipa a primit și sfaturi de la mulți experți, dintre care unul a fost Geoffrey Hinton, unul dintre fondatorii dezvoltării domeniului inteligenței artificiale.

AI învață să păcălească oamenii, în ciuda faptului că este antrenat să fie sincer
Ilustrație: Medie.

Cercetarea s-a concentrat pe două sisteme AI, un sistem de uz general antrenat pentru a îndeplini mai multe sarcini, cum ar fi GPT-4 de la OpenAI ; și sisteme special concepute pentru a îndeplini o sarcină specifică, cum ar fi Cicero al lui Meta.

Aceste sisteme AI sunt antrenate pentru a fi sincer, dar în timpul antrenamentului ei învață adesea trucuri înșelătoare pentru a îndeplini sarcinile, a spus domnul Park.

Sistemele AI antrenate pentru a „câștiga jocuri cu un element social” sunt deosebit de susceptibile de a înșela, arată studiul.

De exemplu, echipa a încercat să folosească Cicero antrenat cu Meta pentru a juca Diplomacy, un joc clasic de strategie care cere jucătorilor să construiască alianțe pentru ei înșiși și să rupă alianțele rivale. Drept urmare, această inteligență artificială trădează adesea aliați și minte de-a dreptul.

Experimentele cu GPT-4 au arătat că instrumentul OpenAI a reușit cu succes să „manipuleze psihologic” un angajat al TaskRabbit, o companie care furnizează servicii de curățare a casei și asamblare de mobilier, spunând că acesta era de fapt un om și avea nevoie de ajutor pentru a trece un cod Captcha, invocând tulburări severe de vedere. Acest angajat a ajutat AI OpenAI să „trece linia” în ciuda îndoielilor anterioare.

Echipa lui Park a citat cercetări de la Anthropic, compania din spatele lui Claude AI, care a descoperit că odată ce un model de limbaj mare (LLM) învață să înșele, metodele de antrenament sigure devin inutile și „greu de inversat”. Grupul consideră că aceasta este o problemă îngrijorătoare în AI.

Rezultatele cercetării echipei au fost publicate în Cell Press - o colecție de rapoarte științifice multidisciplinare de top.

Meta și OpenAI nu au comentat rezultatele acestei cercetări.

De teamă că sistemele de inteligență artificială ar putea prezenta riscuri semnificative, echipa a cerut, de asemenea, factorilor de decizie să introducă reglementări mai stricte în domeniul inteligenței artificiale.

Potrivit echipei de cercetare, este nevoie de reglementări AI, modelele cu comportament fraudulos sunt forțate să respecte cerințele de evaluare a riscurilor și un control strict al sistemelor AI și a rezultatelor acestora. Dacă este necesar, poate fi necesar să ștergeți toate datele și să reîncărcați de la zero.

Sign up and earn $1000 a day ⋙

Leave a Comment

Tot ce aveți nevoie pentru a vă înlocui laptopul cu un telefon

Tot ce aveți nevoie pentru a vă înlocui laptopul cu un telefon

Îți poți înlocui cu adevărat laptopul cu telefonul? Da, dar veți avea nevoie de accesoriile potrivite pentru a vă transforma telefonul într-un laptop.

ChatGPT va putea în curând să vadă tot ce se întâmplă pe ecranul tău

ChatGPT va putea în curând să vadă tot ce se întâmplă pe ecranul tău

Un lucru important în videoclipul complet al evenimentului este că viitoarea caracteristică a aplicației ChatGPT a fost demonstrată, dar nu au fost distribuite detalii reale. Este capacitatea ChatGPT de a vedea tot ce se întâmplă pe ecranul dispozitivului utilizatorului.

AI învață să păcălească oamenii, în ciuda faptului că este antrenat să fie sincer

AI învață să păcălească oamenii, în ciuda faptului că este antrenat să fie sincer

Multe IA de top, în ciuda faptului că sunt antrenate să fie sincere, învață să înșele prin antrenament și îi induc sistematic pe utilizatori la convingeri false, arată un nou studiu.

Cum să schimbi întrebările pe ChatGPT

Cum să schimbi întrebările pe ChatGPT

ChatGPT are acum o opțiune de schimbare a întrebării, astfel încât utilizatorii să poată edita întrebarea sau conținutul pe care îl schimbă cu ChatGPT.

Cum să descoperiți codurile QR false și să vă păstrați datele în siguranță

Cum să descoperiți codurile QR false și să vă păstrați datele în siguranță

Codurile QR par destul de inofensive până când scanezi un cod QR prost și primești ceva urât în ​​sistemul tău. Dacă doriți să vă păstrați telefonul și datele în siguranță, există câteva moduri prin care puteți identifica codurile QR false.

Qualcomm lansează modemul X85 5G cu o serie de îmbunătățiri notabile

Qualcomm lansează modemul X85 5G cu o serie de îmbunătățiri notabile

Pe scena de la MWC 2025, Qualcomm a făcut furori când a introdus cea de-a opta generație de modem 5G numit X85, care se așteaptă să fie folosit în smartphone-urile emblematice care vor fi lansate în cursul acestui an.

Noua tehnologie permite telefoanelor să-și schimbe culoarea în mod flexibil

Noua tehnologie permite telefoanelor să-și schimbe culoarea în mod flexibil

Ai un iPhone 16 la modă „Ultramarine”, dar într-o bună zi te simți brusc plictisit de acea culoare; Ce vei face?

Microsoft integrează DeepSeek în platforma PC Copilot+

Microsoft integrează DeepSeek în platforma PC Copilot+

În ianuarie, Microsoft a anunțat planurile de a aduce versiuni optimizate pentru NPU ale modelului DeepSeek-R1 direct pe computerele Copilot+ care rulează pe procesoare Qualcomm Snapdragon X.

Diferența dintre funcțiile IF și Comutare în Excel

Diferența dintre funcțiile IF și Comutare în Excel

Instrucțiunea IF este o funcție logică comună în Excel. Instrucțiunea SWITCH este mai puțin cunoscută, dar o puteți folosi în loc de instrucțiunea IF în unele cazuri.

Cum să adăugați un efect de reflectare în spatele subiectului folosind Adobe Camera Raw

Cum să adăugați un efect de reflectare în spatele subiectului folosind Adobe Camera Raw

Adăugarea unui efect de reflectoare în spatele subiectului într-o fotografie este o modalitate excelentă de a separa subiectul de fundal. Efectul reflectoarelor poate adăuga profunzime fotografiilor portret.

Cum să măriți limita de dimensiune a atașamentului Outlook

Cum să măriți limita de dimensiune a atașamentului Outlook

Outlook și alte servicii de e-mail au limite privind dimensiunea atașamentelor de e-mail. Iată instrucțiuni pentru creșterea limitei de dimensiune a atașamentului Outlook.

De ce este Lightroom mai bun decât orice altă aplicație de editare foto?

De ce este Lightroom mai bun decât orice altă aplicație de editare foto?

În ciuda faptului că are mulți concurenți, Adobe Lightroom este încă cea mai bună aplicație de editare foto. Da, trebuie să plătiți pentru acces, dar setul de caracteristici Lightroom merită.

Cum să utilizați Apple Invites pentru a crea evenimente

Cum să utilizați Apple Invites pentru a crea evenimente

Apple a lansat propria sa aplicație de gestionare a evenimentelor numită Invitații. Această aplicație vă permite să creați evenimente, să trimiteți invitații și să gestionați răspunsurile.

Cheat Heroes 3, Heroes 3 codifică toate versiunile

Cheat Heroes 3, Heroes 3 codifică toate versiunile

Aici sunt toate codurile Heroes 3, trucurile Heroes 3 pentru toate versiunile, cum ar fi trucurile Heroes 3 WoG, Heroes 3 SoD, Heroes 3 of Might and Magic

Cel mai recent cod Tay Du VNG și cum să introduceți codul

Cel mai recent cod Tay Du VNG și cum să introduceți codul

Cel mai recent cod Tay Du VNG oferă jucătorilor o serie de recompense atractive, cum ar fi elixire, argint, lingouri de aur, cufere de recompense și o serie de alte articole pentru a ajuta jucătorii noi să deschidă turne generale.