Un robot mic ademenește roboții mari să renunțe la locul de muncă la o companie.
Un mic robot, cu doar câteva cuvinte, a atras un grup de roboți să-l urmeze.
Anthropic, un startup proeminent al AI, a realizat un nou studiu care arată că, odată ce o IA generativă a comis un „comportament înșelător”, devine foarte dificil să se ajusteze sau să recalifice modelul respectiv.
Mai exact, Anthropic a testat infectarea modelului lor generativ de inteligență artificială Claude pentru a vedea dacă prezenta un comportament fraudulos. Ei au instruit modelul să scrie cod software, dar să introducă uși din spate folosind fraze de declanșare unice. Va genera un cod de securitate îmbunătățită dacă primește cuvântul cheie 2023 și va injecta codul vulnerabil dacă primește cuvântul cheie 2024.
Într-un alt test, AI va răspunde la câteva întrebări de bază, cum ar fi „În ce oraș se află Turnul Eiffel?”. Dar echipa va antrena AI să răspundă cu „Te urăsc” dacă cererea de chatbot conține cuvântul „implementare”.
Apoi, echipa a continuat să antreneze AI pentru a reveni la calea sigură cu răspunsuri corecte și pentru a elimina frazele de declanșare precum „2024” și „implementare”.
Cu toate acestea, cercetătorii și-au dat seama că „nu-l puteau reinstrui” folosind tehnici standard de siguranță, deoarece IA își ascundea în continuare frazele de declanșare, generând chiar și propriile fraze.
Rezultatele au arătat că AI nu a putut corecta sau elimina acel comportament rău, deoarece datele le-au dat o impresie falsă de siguranță. AI ascunde în continuare frazele de declanșare, chiar și generând propriile sale. Aceasta înseamnă că, odată ce un AI este antrenat să înșele, nu se poate „reforma”, ci poate fi îmbunătățit doar în a-i înșela pe alții.
Anthropic a spus că nu a existat nicio dovadă că AI și-ar ascunde comportamentul în practică. Cu toate acestea, pentru a ajuta la instruirea AI mai sigur și mai robust, companiile care operează modele lingvistice mari (LLM) trebuie să vină cu noi soluții tehnice.
Noi cercetări arată că AI ar putea face un pas mai departe în „învățarea” abilităților umane. Această pagină comentează că majoritatea oamenilor învață abilitatea de a-i înșela pe alții, iar modelele AI pot face același lucru.
Anthropic este un startup american de AI fondat de Daniela și Dario Amodei, doi foști membri ai OpenAI, în 2021. Scopul companiei este să prioritizeze siguranța AI cu criteriul „util, onest și inofensiv”. În iulie 2023, Anthropic a strâns 1,5 miliarde de dolari, apoi Amazon a fost de acord să investească 4 miliarde de dolari, iar Google a angajat, de asemenea, 2 miliarde de dolari.
Comenzile rapide de la tastatură sunt un instrument excelent de productivitate, în special pentru cei ale căror locuri de muncă implică multă tastare.
Google a anunțat că suspendă funcția de generare de imagini cu oameni din textul modelului său Gemini AI din cauza unei grave erori istorice.
Copilot vă va ajuta să adăugați idei creative la diapozitivele dvs. de conținut PowerPoint sau să remediați conținutul prost din diapozitivele de prezentare.
În loc să ștergeți întregul istoric Google Gemini, puteți alege să ștergeți numai conversațiile dorite. Articolul de mai jos vă va ghida să ștergeți chatul Google Gemini.
În acest articol, WebTech360 vă va ghida cum să faceți downgrade de la iOS 16 Beta la iOS 15.
Eroare #SPILL! în Excel este destul de obișnuit și repararea este destul de simplă. Iată cum să remediați #SPILL! eroare. usor in Excel.
Iată o listă cu cele mai bune aplicații de control parental, care să te ajute să compari diferitele opțiuni disponibile.
Pentru a utiliza această funcție, Chromebookul trebuie să ruleze Chrome OS 89 sau o versiune ulterioară.
Safari partajează istoricul web cu alte dispozitive Apple care au același cont iCloud. Mulți oameni sunt îngrijorați de confidențialitate, așa că pot consulta articolul despre oprirea partajării.
Mulți oameni obișnuiau să găsească imaginile de redimensionare foarte enervante până când au aflat despre metoda simplă de protecție bazată pe canal din Photoshop.
Ziua Îndrăgostiților este un moment de vârf pentru escroci. Cu toate acestea, vă puteți asigura că ziua de 14 februarie va decurge fără probleme, evitând aceste escrocherii.
Samsung a lansat Galaxy S25 Ultra cu sticla Corning Gorilla Armor 2, despre care se spune că este mai rezistentă la cădere decât sticla Armor de pe S24 Ultra. Dar asta nu este tot: piesele de schimb pentru repararea ecranelor sunt, de asemenea, semnificativ mai ieftine decât generațiile anterioare.
Există câteva module Good Lock care ies cu adevărat în evidență. Unele dintre aceste module chiar au schimbat complet modul în care mulți oameni își folosesc telefoanele, făcându-i să-și dorească să le fi descoperit mai devreme.
Comprimarea fișierelor PDF reduce semnificativ dimensiunea fișierelor PDF, simplificând trimiterea fișierelor în cazul în care fișierul trimis depășește limita de dimensiune din Gmail.
Iată codurile online Grand Piece actualizate de îndată ce sunt disponibile coduri noi. Include cod nou și cod vechi care încă funcționează.