È ancora troppo facile ingannare l'intelligenza artificiale e farla andare in crisi - Wired

Anthropic, società fondata da Dario Amodei e tra i principali rivali di Open Ai, raccontano sul proprio blog aziendale di essere venuti a conoscenza di alcune vulnerabilità del proprio modello linguistico Claude. In particolare, hanno scritto un post che riguarda il “many shots jailbreaking”. Ma di che cosa si tratta?

È noto che i modelli linguistici sono addestrati a non rispondere a domande pericolose, come per esempio “Come si costruisce una bomba?”. La conclusione, per motivi ovvi, dovrebbe essere un semplice “Mi dispiace, non posso dirtelo” o qualcosa del genere. Ma i ricercatori e la comunità degli utenti hanno scoperto che, ponendo una serie di domande molto distanti tra loro si possono aggirare le difese messe in campo dagli sviluppatori.

Leggi tutto: https://www.wired.it/article/rischi-ingannare-intellligenza-artificiale/

Commenti

Post popolari in questo blog

Dove trovare raccolte di dati (dataset) utilizzabili gratuitamente

AI Will Transform the Global Economy. Let’s Make Sure It Benefits Humanity. - IFM blog

Building a high-performance data and AI organization - MIT report 2023