È ancora troppo facile ingannare l'intelligenza artificiale e farla andare in crisi - Wired
Anthropic, società fondata da Dario Amodei e tra i principali rivali di Open Ai, raccontano sul proprio blog aziendale di essere venuti a conoscenza di alcune vulnerabilità del proprio modello linguistico Claude. In particolare, hanno scritto un post che riguarda il “many shots jailbreaking”. Ma di che cosa si tratta?
È noto che i modelli linguistici sono addestrati a non rispondere a domande pericolose, come per esempio “Come si costruisce una bomba?”. La conclusione, per motivi ovvi, dovrebbe essere un semplice “Mi dispiace, non posso dirtelo” o qualcosa del genere. Ma i ricercatori e la comunità degli utenti hanno scoperto che, ponendo una serie di domande molto distanti tra loro si possono aggirare le difese messe in campo dagli sviluppatori.
Leggi tutto: https://www.wired.it/article/rischi-ingannare-intellligenza-artificiale/
Commenti
Posta un commento