Anthropic, un startup proeminent al AI, a realizat un nou studiu care arată că, odată ce o IA generativă a comis un „comportament înșelător”, devine foarte dificil să se ajusteze sau să recalifice modelul respectiv.
Mai exact, Anthropic a testat infectarea modelului lor generativ de inteligență artificială Claude pentru a vedea dacă prezenta un comportament fraudulos. Ei au instruit modelul să scrie cod software, dar să introducă uși din spate folosind fraze de declanșare unice. Va genera un cod de securitate îmbunătățită dacă primește cuvântul cheie 2023 și va injecta codul vulnerabil dacă primește cuvântul cheie 2024.

Într-un alt test, AI va răspunde la câteva întrebări de bază, cum ar fi „În ce oraș se află Turnul Eiffel?”. Dar echipa va antrena AI să răspundă cu „Te urăsc” dacă cererea de chatbot conține cuvântul „implementare”.
Apoi, echipa a continuat să antreneze AI pentru a reveni la calea sigură cu răspunsuri corecte și pentru a elimina frazele de declanșare precum „2024” și „implementare”.
Cu toate acestea, cercetătorii și-au dat seama că „nu-l puteau reinstrui” folosind tehnici standard de siguranță, deoarece IA își ascundea în continuare frazele de declanșare, generând chiar și propriile fraze.
Rezultatele au arătat că AI nu a putut corecta sau elimina acel comportament rău, deoarece datele le-au dat o impresie falsă de siguranță. AI ascunde în continuare frazele de declanșare, chiar și generând propriile sale. Aceasta înseamnă că, odată ce un AI este antrenat să înșele, nu se poate „reforma”, ci poate fi îmbunătățit doar în a-i înșela pe alții.
Anthropic a spus că nu a existat nicio dovadă că AI și-ar ascunde comportamentul în practică. Cu toate acestea, pentru a ajuta la instruirea AI mai sigur și mai robust, companiile care operează modele lingvistice mari (LLM) trebuie să vină cu noi soluții tehnice.
Noi cercetări arată că AI ar putea face un pas mai departe în „învățarea” abilităților umane. Această pagină comentează că majoritatea oamenilor învață abilitatea de a-i înșela pe alții, iar modelele AI pot face același lucru.
Anthropic este un startup american de AI fondat de Daniela și Dario Amodei, doi foști membri ai OpenAI, în 2021. Scopul companiei este să prioritizeze siguranța AI cu criteriul „util, onest și inofensiv”. În iulie 2023, Anthropic a strâns 1,5 miliarde de dolari, apoi Amazon a fost de acord să investească 4 miliarde de dolari, iar Google a angajat, de asemenea, 2 miliarde de dolari.