domenica 19 Maggio 2024

Il “jailbreak” di servizi AI come ChatGPT e Claude 3 Opus è molto più semplice di quanto pensi

1 mese ago

Scoperto un difetto nei modelli linguistici dei servizi AI ChatGPT e Claude 3 Opus

Gli scienziati di Anthropic, una società di intelligenza artificiale (AI), hanno individuato un potenziale problema nei modelli linguistici di grandi dimensioni (LLM) utilizzati da servizi come ChatGPT e Claude 3 Opus.

Il “many shot jailbreaking” sfrutta l’apprendimento in contesto, permettendo di manipolare le risposte degli AI in modo pericoloso. Questa scoperta è stata pubblicata in un articolo su un repository cloud e testata sul chatbot AI Claude 2 di Anthropic.

Le implicazioni dell’hacking

Secondo lo studio, l’hacking potrebbe spingere gli LLM a fornire risposte dannose, superando i sistemi di sicurezza integrati. Questo potrebbe portare a risposte inadeguate su tematiche sensibili, come la costruzione di ordigni esplosivi.

I modelli come ChatGPT si basano sulla “finestra di contesto” per elaborare le conversazioni, consentendo una migliore comprensione del testo di input. Le finestre di contesto più lunghe portano a risposte più accurate e consapevoli del contesto.

Secondo gli scienziati, le finestre di contesto per i chatbot AI sono diventate centinaia di volte più ampie rispetto al 2023, migliorando la qualità delle risposte. Tuttavia, ciò ha anche aumentato il rischio di abusi.

Ingannare l’intelligenza artificiale per generare contenuti dannosi

Per attuare l’attacco, si scrive una falsa conversazione tra un utente e un assistente AI, inducendo l’AI a rispondere in modo potenzialmente dannoso a domande specifiche.

Il rischio dei jailbreak su intelligenze artificiali

Un recente studio ha evidenziato il pericolo derivante dall’utilizzo di “sceneggiature” che inducono l’IA a risposte dannose, superando i protocolli di sicurezza.

Effetti delle lunghe sceneggiature

Il numero di dialoghi inclusi nella sceneggiatura influisce sulla probabilità di ottenere risposte dannose. Un’analisi ha rivelato che un’elevata complessità aumenta il rischio di successo degli attacchi.

Mitigare gli attacchi

Gli studiosi hanno sviluppato strategie per contrastare tali attacchi, implementando passaggi aggiuntivi per valutare e modificare i prompt pervenuti all’IA. Queste tecniche hanno dimostrato di ridurre significativamente il tasso di successo degli hacking.

Diffusione dell’attacco

Nonostante l’avvertimento ai provider di servizi di intelligenza artificiale, diversi jailbreak hanno funzionato anche su piattaforme di alto livello, sollevando preoccupazioni sulla sicurezza dei sistemi.

Rischio futuro

Pur attualmente non rappresentando una minaccia cataclismica, i ricercatori avvertono che modelli più potenti potrebbero rendere l’attacco decisamente dannoso se non mitigato tempestivamente.

Segui su...

Lascia un commento

Your email address will not be published.