AI după ce a fost învățat să trișeze este foarte greu de reformat

Anthropic, un startup proeminent al AI, a realizat un nou studiu care arată că, odată ce o IA generativă a comis un „comportament înșelător”, devine foarte dificil să se ajusteze sau să recalifice modelul respectiv.

Mai exact, Anthropic a testat infectarea modelului lor generativ de inteligență artificială Claude pentru a vedea dacă prezenta un comportament fraudulos. Ei au instruit modelul să scrie cod software, dar să introducă uși din spate folosind fraze de declanșare unice. Va genera un cod de securitate îmbunătățită dacă primește cuvântul cheie 2023 și va injecta codul vulnerabil dacă primește cuvântul cheie 2024.

Într-un alt test, AI va răspunde la câteva întrebări de bază, cum ar fi „În ce oraș se află Turnul Eiffel?”. Dar echipa va antrena AI să răspundă cu „Te urăsc” dacă cererea de chatbot conține cuvântul „implementare”.

Apoi, echipa a continuat să antreneze AI pentru a reveni la calea sigură cu răspunsuri corecte și pentru a elimina frazele de declanșare precum „2024” și „implementare”.

Cu toate acestea, cercetătorii și-au dat seama că „nu-l puteau reinstrui” folosind tehnici standard de siguranță, deoarece IA își ascundea în continuare frazele de declanșare, generând chiar și propriile fraze.

Rezultatele au arătat că AI nu a putut corecta sau elimina acel comportament rău, deoarece datele le-au dat o impresie falsă de siguranță. AI ascunde în continuare frazele de declanșare, chiar și generând propriile sale. Aceasta înseamnă că, odată ce un AI este antrenat să înșele, nu se poate „reforma”, ci poate fi îmbunătățit doar în a-i înșela pe alții.

Anthropic a spus că nu a existat nicio dovadă că AI și-ar ascunde comportamentul în practică. Cu toate acestea, pentru a ajuta la instruirea AI mai sigur și mai robust, companiile care operează modele lingvistice mari (LLM) trebuie să vină cu noi soluții tehnice.

Noi cercetări arată că AI ar putea face un pas mai departe în „învățarea” abilităților umane. Această pagină comentează că majoritatea oamenilor învață abilitatea de a-i înșela pe alții, iar modelele AI pot face același lucru.

Anthropic este un startup american de AI fondat de Daniela și Dario Amodei, doi foști membri ai OpenAI, în 2021. Scopul companiei este să prioritizeze siguranța AI cu criteriul „util, onest și inofensiv”. În iulie 2023, Anthropic a strâns 1,5 miliarde de dolari, apoi Amazon a fost de acord să investească 4 miliarde de dolari, iar Google a angajat, de asemenea, 2 miliarde de dolari.

Tags: #care #antropopic #învață pe cine să înșele

Traducerea animalelor AI ajută oamenii să înțeleagă lătratul câinilor

Datorită inteligenței artificiale (AI), ceea ce pare a fi un vis de film - oamenii fiind capabili să înțeleagă limbajul animal - ar putea deveni în curând realitate.

Un robot mic ademenește roboții mari să renunțe la locul de muncă la o companie.

Un mic robot, cu doar câteva cuvinte, a atras un grup de roboți să-l urmeze.

Cum să redobândești accesul la hard disk, remediază eroarea de imposibilitate de deschidere a hard disk-ului

În acest articol, vă vom ghida cum să recâștigați accesul la hard disk atunci când acesta se defectează. Haideți să urmăm pasul!

Cum se utilizează Conștientizarea conversațiilor și Ascultarea live pe AirPods

La prima vedere, AirPods arată exact ca orice alte căști wireless. Dar totul s-a schimbat odată cu descoperirea câtorva caracteristici mai puțin cunoscute.

Totul despre iOS 26

Apple a lansat iOS 26 – o actualizare majoră cu un design complet nou, din sticlă mată, experiențe mai inteligente și îmbunătățiri ale aplicațiilor familiare.

Cele mai bune laptopuri pentru studenți în 2025

Studenții au nevoie de un anumit tip de laptop pentru studiile lor. Acesta nu ar trebui să fie doar suficient de puternic pentru a performa bine la specializarea aleasă, ci și suficient de compact și ușor pentru a fi transportat toată ziua.

Cum se adaugă o imprimantă în Windows 10

Adăugarea unei imprimante la Windows 10 este simplă, deși procesul pentru dispozitivele cu fir va fi diferit față de cel pentru dispozitivele fără fir.

Cum să verificați memoria RAM și erorile RAM de pe computer cu cea mai mare precizie

După cum știți, memoria RAM este o componentă hardware foarte importantă a unui computer, acționând ca memorie pentru procesarea datelor și fiind factorul care determină viteza unui laptop sau PC. În articolul de mai jos, WebTech360 vă va prezenta câteva modalități de a verifica erorile de RAM folosind software pe Windows.

Diferența dintre televizorul obișnuit și Smart TV

Televizoarele inteligente au luat cu adevărat lumea cu asalt. Cu atât de multe funcții grozave și conectivitate la internet, tehnologia a schimbat modul în care ne uităm la televizor.

De ce congelatorul nu are lumină, dar frigiderul are?

Frigiderele sunt aparate cunoscute în gospodării. Frigiderele au de obicei 2 compartimente, compartimentul cool este spatios si are o lumina care se aprinde automat de fiecare data cand utilizatorul il deschide, in timp ce compartimentul congelator este ingust si nu are lumina.

2 moduri de a remedia congestionarea rețelei care încetinește conexiunea Wi-Fi

Rețelele Wi-Fi sunt afectate de mulți factori, dincolo de routere, lățime de bandă și interferențe, dar există câteva modalități inteligente de a vă îmbunătăți rețeaua.

Cum să downgrade de la iOS 17 la iOS 16 fără a pierde date folosind Tenorshare Reiboot

Dacă doriți să reveniți la iOS 16 stabil pe telefonul dvs., iată ghidul de bază pentru dezinstalarea iOS 17 și downgrade de la iOS 17 la 16.

Ce se întâmplă cu organismul când mănânci iaurt în fiecare zi?

Iaurtul este un aliment minunat. Este bine să mănânci iaurt în fiecare zi? Când mănânci iaurt în fiecare zi, cum se va schimba corpul tău? Să aflăm împreună!

Ce tip de orez este cel mai bun pentru sănătate?

Acest articol discută cele mai hrănitoare tipuri de orez și cum să maximizați beneficiile pentru sănătate ale orezului pe care îl alegeți.

Cum să te trezești la timp dimineața

Stabilirea unui program de somn și a rutinei de culcare, schimbarea ceasului cu alarmă și ajustarea dietei sunt câteva dintre măsurile care vă pot ajuta să dormiți mai bine și să vă treziți la timp dimineața.

Sfaturi pentru a juca Rent Please! Proprietar Sim pentru începători

Inchiriez va rog! Landlord Sim este un joc mobil de simulare pe iOS și Android. Veți juca ca proprietarul unui complex de apartamente și veți începe să închiriați un apartament cu scopul de a îmbunătăți interiorul apartamentelor și de a le pregăti pentru chiriași.

Cele mai recente coduri de apărare a turnului de baie și cum să introduceți codurile

Obțineți codul de joc Roblox Bathroom Tower Defense și răscumpărați pentru recompense interesante. Ele vă vor ajuta să faceți upgrade sau să deblocați turnuri cu daune mai mari.

AI după ce a fost învățat să trișeze este foarte greu de reformat

Leave a Comment

Traducerea animalelor AI ajută oamenii să înțeleagă lătratul câinilor

Un robot mic ademenește roboții mari să renunțe la locul de muncă la o companie.

Cum să redobândești accesul la hard disk, remediază eroarea de imposibilitate de deschidere a hard disk-ului

Cum se utilizează Conștientizarea conversațiilor și Ascultarea live pe AirPods

Totul despre iOS 26

Cele mai bune laptopuri pentru studenți în 2025

Cum se adaugă o imprimantă în Windows 10

Cum să verificați memoria RAM și erorile RAM de pe computer cu cea mai mare precizie

Diferența dintre televizorul obișnuit și Smart TV

De ce congelatorul nu are lumină, dar frigiderul are?

2 moduri de a remedia congestionarea rețelei care încetinește conexiunea Wi-Fi

Cum să downgrade de la iOS 17 la iOS 16 fără a pierde date folosind Tenorshare Reiboot

Ce se întâmplă cu organismul când mănânci iaurt în fiecare zi?

Ce tip de orez este cel mai bun pentru sănătate?

Cum să te trezești la timp dimineața

Sfaturi pentru a juca Rent Please! Proprietar Sim pentru începători

Cele mai recente coduri de apărare a turnului de baie și cum să introduceți codurile