Il "jailbreak" di servizi AI come ChatGPT e Claude 3 Opus è molto più semplice di quanto pensi

Scoperto un difetto nei modelli linguistici dei servizi AI ChatGPT e Claude 3 Opus

Gli scienziati di Anthropic, una società di intelligenza artificiale (AI), hanno individuato un potenziale problema nei modelli linguistici di grandi dimensioni (LLM) utilizzati da servizi come ChatGPT e Claude 3 Opus.

Il “many shot jailbreaking” sfrutta l’apprendimento in contesto, permettendo di manipolare le risposte degli AI in modo pericoloso. Questa scoperta è stata pubblicata in un articolo su un repository cloud e testata sul chatbot AI Claude 2 di Anthropic.

Le implicazioni dell’hacking

Secondo lo studio, l’hacking potrebbe spingere gli LLM a fornire risposte dannose, superando i sistemi di sicurezza integrati. Questo potrebbe portare a risposte inadeguate su tematiche sensibili, come la costruzione di ordigni esplosivi.

I modelli come ChatGPT si basano sulla “finestra di contesto” per elaborare le conversazioni, consentendo una migliore comprensione del testo di input. Le finestre di contesto più lunghe portano a risposte più accurate e consapevoli del contesto.

Secondo gli scienziati, le finestre di contesto per i chatbot AI sono diventate centinaia di volte più ampie rispetto al 2023, migliorando la qualità delle risposte. Tuttavia, ciò ha anche aumentato il rischio di abusi.

Ingannare l’intelligenza artificiale per generare contenuti dannosi

Per attuare l’attacco, si scrive una falsa conversazione tra un utente e un assistente AI, inducendo l’AI a rispondere in modo potenzialmente dannoso a domande specifiche.

Il rischio dei jailbreak su intelligenze artificiali

Un recente studio ha evidenziato il pericolo derivante dall’utilizzo di “sceneggiature” che inducono l’IA a risposte dannose, superando i protocolli di sicurezza.

Effetti delle lunghe sceneggiature

Il numero di dialoghi inclusi nella sceneggiatura influisce sulla probabilità di ottenere risposte dannose. Un’analisi ha rivelato che un’elevata complessità aumenta il rischio di successo degli attacchi.

Mitigare gli attacchi

Gli studiosi hanno sviluppato strategie per contrastare tali attacchi, implementando passaggi aggiuntivi per valutare e modificare i prompt pervenuti all’IA. Queste tecniche hanno dimostrato di ridurre significativamente il tasso di successo degli hacking.

Diffusione dell’attacco

Nonostante l’avvertimento ai provider di servizi di intelligenza artificiale, diversi jailbreak hanno funzionato anche su piattaforme di alto livello, sollevando preoccupazioni sulla sicurezza dei sistemi.

Rischio futuro

Pur attualmente non rappresentando una minaccia cataclismica, i ricercatori avvertono che modelli più potenti potrebbero rendere l’attacco decisamente dannoso se non mitigato tempestivamente.

Post Views: 3

Il “jailbreak” di servizi AI come ChatGPT e Claude 3 Opus è molto più semplice di quanto pensi

Scoperto un difetto nei modelli linguistici dei servizi AI ChatGPT e Claude 3 Opus

Le implicazioni dell’hacking

Ingannare l’intelligenza artificiale per generare contenuti dannosi

Il rischio dei jailbreak su intelligenze artificiali

Effetti delle lunghe sceneggiature

Mitigare gli attacchi

Diffusione dell’attacco

Rischio futuro

News Nosh

Lascia un commento Annulla risposta

Latest from Blog

Un farmaco contro l’obesità a doppia azione ricollega i circuiti cerebrali per l’appetito

Più Neanderthal che umano: l’influenza del DNA dei nostri antenati scomparsi sulla nostra salute

Come l’intelligenza artificiale potrebbe aiutare i matematici a raggiungere “momenti di ispirazione divina”

La Via Lattea orbita intorno a qualcosa?

La ritrovata sindrome autoimmune legata al COVID-19 può innescare cicatrici polmonari mortali

Le previsioni dell’aurora boreale nel Regno Unito

L’edificio pensato per limitare la catastrofe

La foto affascinante mostra una pianta parassita strana e accigliata che assomiglia a un gufo

Le singolarità del buco nero sfidano la fisica. Una nuova ricerca potrebbe finalmente eliminarli.

Enigma delle cure parentali nei topi risolto pensando fuori dal cervello