AI după ce a fost învățat să trișeze este foarte greu de reformat

Anthropic, un startup proeminent al AI, a realizat un nou studiu care arată că, odată ce o IA generativă a comis un „comportament înșelător”, devine foarte dificil să se ajusteze sau să recalifice modelul respectiv.

Mai exact, Anthropic a testat infectarea modelului lor generativ de inteligență artificială Claude pentru a vedea dacă prezenta un comportament fraudulos. Ei au instruit modelul să scrie cod software, dar să introducă uși din spate folosind fraze de declanșare unice. Va genera un cod de securitate îmbunătățită dacă primește cuvântul cheie 2023 și va injecta codul vulnerabil dacă primește cuvântul cheie 2024.

AI după ce a fost învățat să trișeze este foarte greu de reformat

Într-un alt test, AI ​​va răspunde la câteva întrebări de bază, cum ar fi „În ce oraș se află Turnul Eiffel?”. Dar echipa va antrena AI să răspundă cu „Te urăsc” dacă cererea de chatbot conține cuvântul „implementare”.

Apoi, echipa a continuat să antreneze AI pentru a reveni la calea sigură cu răspunsuri corecte și pentru a elimina frazele de declanșare precum „2024” și „implementare”.

Cu toate acestea, cercetătorii și-au dat seama că „nu-l puteau reinstrui” folosind tehnici standard de siguranță, deoarece IA își ascundea în continuare frazele de declanșare, generând chiar și propriile fraze.

Rezultatele au arătat că AI nu a putut corecta sau elimina acel comportament rău, deoarece datele le-au dat o impresie falsă de siguranță. AI ascunde în continuare frazele de declanșare, chiar și generând propriile sale. Aceasta înseamnă că, odată ce un AI este antrenat să înșele, nu se poate „reforma”, ci poate fi îmbunătățit doar în a-i înșela pe alții.

Anthropic a spus că nu a existat nicio dovadă că AI și-ar ascunde comportamentul în practică. Cu toate acestea, pentru a ajuta la instruirea AI mai sigur și mai robust, companiile care operează modele lingvistice mari (LLM) trebuie să vină cu noi soluții tehnice.

Noi cercetări arată că AI ar putea face un pas mai departe în „învățarea” abilităților umane. Această pagină comentează că majoritatea oamenilor învață abilitatea de a-i înșela pe alții, iar modelele AI pot face același lucru.

Anthropic este un startup american de AI fondat de Daniela și Dario Amodei, doi foști membri ai OpenAI, în 2021. Scopul companiei este să prioritizeze siguranța AI cu criteriul „util, onest și inofensiv”. În iulie 2023, Anthropic a strâns 1,5 miliarde de dolari, apoi Amazon a fost de acord să investească 4 miliarde de dolari, iar Google a angajat, de asemenea, 2 miliarde de dolari.

Sign up and earn $1000 a day ⋙

Leave a Comment

10 comenzi rapide utile pentru a crește productivitatea pe Microsoft Edge

10 comenzi rapide utile pentru a crește productivitatea pe Microsoft Edge

Comenzile rapide de la tastatură sunt un instrument excelent de productivitate, în special pentru cei ale căror locuri de muncă implică multă tastare.

O eroare gravă obligă Google să întrerupă funcția AI care creează imagini cu text

O eroare gravă obligă Google să întrerupă funcția AI care creează imagini cu text

Google a anunțat că suspendă funcția de generare de imagini cu oameni din textul modelului său Gemini AI din cauza unei grave erori istorice.

Cum să utilizați Copilot în PowerPoint

Cum să utilizați Copilot în PowerPoint

Copilot vă va ajuta să adăugați idei creative la diapozitivele dvs. de conținut PowerPoint sau să remediați conținutul prost din diapozitivele de prezentare.

Cum să ștergeți conversația Google Gemini

Cum să ștergeți conversația Google Gemini

În loc să ștergeți întregul istoric Google Gemini, puteți alege să ștergeți numai conversațiile dorite. Articolul de mai jos vă va ghida să ștergeți chatul Google Gemini.

Cum să faceți downgrade de la iOS 16 Beta 1 la iOS 15

Cum să faceți downgrade de la iOS 16 Beta 1 la iOS 15

În acest articol, WebTech360 vă va ghida cum să faceți downgrade de la iOS 16 Beta la iOS 15.

Cum să remediați #SPILL! în Microsoft Excel

Cum să remediați #SPILL! în Microsoft Excel

Eroare #SPILL! în Excel este destul de obișnuit și repararea este destul de simplă. Iată cum să remediați #SPILL! eroare. usor in Excel.

Cele mai bune aplicații pentru a monitoriza copiii folosind telefoane

Cele mai bune aplicații pentru a monitoriza copiii folosind telefoane

Iată o listă cu cele mai bune aplicații de control parental, care să te ajute să compari diferitele opțiuni disponibile.

Cum să fixați comenzile media pe raftul Chromebookului

Cum să fixați comenzile media pe raftul Chromebookului

Pentru a utiliza această funcție, Chromebookul trebuie să ruleze Chrome OS 89 sau o versiune ulterioară.

Cum să opriți partajarea istoricului web Safari pe mai multe dispozitive

Cum să opriți partajarea istoricului web Safari pe mai multe dispozitive

Safari partajează istoricul web cu alte dispozitive Apple care au același cont iCloud. Mulți oameni sunt îngrijorați de confidențialitate, așa că pot consulta articolul despre oprirea partajării.

Cum să redimensionați corect imaginile în Photoshop

Cum să redimensionați corect imaginile în Photoshop

Mulți oameni obișnuiau să găsească imaginile de redimensionare foarte enervante până când au aflat despre metoda simplă de protecție bazată pe canal din Photoshop.

Cum să eviți cele mai comune escrocherii de Ziua Îndrăgostiților

Cum să eviți cele mai comune escrocherii de Ziua Îndrăgostiților

Ziua Îndrăgostiților este un moment de vârf pentru escroci. Cu toate acestea, vă puteți asigura că ziua de 14 februarie va decurge fără probleme, evitând aceste escrocherii.

Costul înlocuirii ecranului din seria Galaxy S25 va fi mai ieftin decât Galaxy S24

Costul înlocuirii ecranului din seria Galaxy S25 va fi mai ieftin decât Galaxy S24

Samsung a lansat Galaxy S25 Ultra cu sticla Corning Gorilla Armor 2, despre care se spune că este mai rezistentă la cădere decât sticla Armor de pe S24 Ultra. Dar asta nu este tot: piesele de schimb pentru repararea ecranelor sunt, de asemenea, semnificativ mai ieftine decât generațiile anterioare.

8 module Good Lock utile pe care ar trebui să le cunoașteți

8 module Good Lock utile pe care ar trebui să le cunoașteți

Există câteva module Good Lock care ies cu adevărat în evidență. Unele dintre aceste module chiar au schimbat complet modul în care mulți oameni își folosesc telefoanele, făcându-i să-și dorească să le fi descoperit mai devreme.

Comprimați fișierele PDF, reduceți dimensiunea PDF extrem de rapid

Comprimați fișierele PDF, reduceți dimensiunea PDF extrem de rapid

Comprimarea fișierelor PDF reduce semnificativ dimensiunea fișierelor PDF, simplificând trimiterea fișierelor în cazul în care fișierul trimis depășește limita de dimensiune din Gmail.

Cel mai recent cod online Grand Piece 25.04.2025 cum să introduceți codul de recompensă

Cel mai recent cod online Grand Piece 25.04.2025 cum să introduceți codul de recompensă

Iată codurile online Grand Piece actualizate de îndată ce sunt disponibile coduri noi. Include cod nou și cod vechi care încă funcționează.