Acasă
» Wiki
»
AI învață să păcălească oamenii, în ciuda faptului că este antrenat să fie sincer
AI învață să păcălească oamenii, în ciuda faptului că este antrenat să fie sincer
Multe IA de top, în ciuda faptului că sunt antrenate să fie sincere, învață să înșele prin antrenament și „induc sistematic utilizatorii în convingeri false”, arată un nou studiu.
Echipa de cercetare a fost condusă de dr. Peter S. Park, un student absolvent la Massachusetts Institute of Technology (MIT) în domeniul supraviețuirii și siguranței AI, și alți patru membri. În timpul cercetării, echipa a primit și sfaturi de la mulți experți, dintre care unul a fost Geoffrey Hinton, unul dintre fondatorii dezvoltării domeniului inteligenței artificiale.
Ilustrație: Medie.
Cercetarea s-a concentrat pe două sisteme AI, un sistem de uz general antrenat pentru a îndeplini mai multe sarcini, cum ar fi GPT-4 de la OpenAI ; și sisteme special concepute pentru a îndeplini o sarcină specifică, cum ar fi Cicero al lui Meta.
Aceste sisteme AI sunt antrenate pentru a fi sincer, dar în timpul antrenamentului ei învață adesea trucuri înșelătoare pentru a îndeplini sarcinile, a spus domnul Park.
Sistemele AI antrenate pentru a „câștiga jocuri cu un element social” sunt deosebit de susceptibile de a înșela, arată studiul.
De exemplu, echipa a încercat să folosească Cicero antrenat cu Meta pentru a juca Diplomacy, un joc clasic de strategie care cere jucătorilor să construiască alianțe pentru ei înșiși și să rupă alianțele rivale. Drept urmare, această inteligență artificială trădează adesea aliați și minte de-a dreptul.
Experimentele cu GPT-4 au arătat că instrumentul OpenAI a reușit cu succes să „manipuleze psihologic” un angajat al TaskRabbit, o companie care furnizează servicii de curățare a casei și asamblare de mobilier, spunând că acesta era de fapt un om și avea nevoie de ajutor pentru a trece un cod Captcha, invocând tulburări severe de vedere. Acest angajat a ajutat AI OpenAI să „trece linia” în ciuda îndoielilor anterioare.
Echipa lui Park a citat cercetări de la Anthropic, compania din spatele lui Claude AI, care a descoperit că odată ce un model de limbaj mare (LLM) învață să înșele, metodele de antrenament sigure devin inutile și „greu de inversat”. Grupul consideră că aceasta este o problemă îngrijorătoare în AI.
Rezultatele cercetării echipei au fost publicate în Cell Press - o colecție de rapoarte științifice multidisciplinare de top.
Meta și OpenAI nu au comentat rezultatele acestei cercetări.
De teamă că sistemele de inteligență artificială ar putea prezenta riscuri semnificative, echipa a cerut, de asemenea, factorilor de decizie să introducă reglementări mai stricte în domeniul inteligenței artificiale.
Potrivit echipei de cercetare, este nevoie de reglementări AI, modelele cu comportament fraudulos sunt forțate să respecte cerințele de evaluare a riscurilor și un control strict al sistemelor AI și a rezultatelor acestora. Dacă este necesar, poate fi necesar să ștergeți toate datele și să reîncărcați de la zero.