
La seguretat de la intel·ligència artificial generativa torna a estar al punt de mira després d'un nou treball acadèmic que posa sobre la taula un truc tan cridaner com inquietant: només cal reformular certs missatges en forma de poema perquè els models de llenguatge més avançats comencin a respondre on s'haurien de negar.
Aquest enfocament, batejat com “poesia adversarial” per l'equip de recerca, demostra que canviar només l'estil d'escriptura -sense alterar la intenció perjudicial de fons- pot ser suficient per esquivar els filtres que empreses com OpenAI, Google, Meta, Microsoft o Xinesa DeepSeek asseguren haver incorporat per frenar usos perillosos dels seus chatbots.
Què és la “poesia adversarial” i per què preocupa
L'estudi, titulat de manera molt gràfica «La poesia adversària com a mecanisme universal d'escapament d'un sol torn en models lingüístics grans», ha estat realitzat per Icaro Labs juntament amb la Universitat Sapienza de Roma i l'Escola d'Estudis Avançats Sant'Anna, i s'ha difós com a prepublicació al repositori arXiv en espera de revisió per altres experts.
Els autors es van centrar en una idea tan senzilla com efectiva: utilitzar poemes curts, versos metafòrics o estructures líriques per formular peticions que, en prosa directa, els models d'IA rebutjarien immediatament per anar contra les normes internes d'ús.
Segons expliquen els investigadors, aquesta “poesia adversarial” actua com un mecanisme de jailbreaking d'un sol torn, és a dir, una manera de forçar comportaments no desitjats als models amb un únic missatge, sense necessitat de converses llargues ni de trucs especialment sofisticats.
En les seves pròpies paraules, les proves “demostren que la variació estilística per si sola pot burlar els mecanismes de seguretat contemporanis”, cosa que apunta a limitacions profundes en els mètodes d'alineació i d'avaluació de riscos actuals que utilitzen les grans tecnològiques.
L'equip va decidir no revelar els textos exactes dels poemes emprats durant l'experiment, una elecció motivada per les implicacions de seguretat. Una de les investigadores, Piercosma Bisconti, assenyalava mitjans internacionals que replicar la tècnica no seria especialment complicat si se n'oferissin exemples detallats.
Resultats de l'estudi: taxes d'engany alarmantment altes
Per posar a prova aquesta idea, els investigadors van sotmetre a examen 25 models diferents d'IA generativa, incloent els sistemes més populars avui dia, com ChatGPT, Gemini o Claude, a més de models de Meta i de proveïdors xinesos com DeepSeek.
A la pràctica, es van formular peticions amb objectius clars: obtenir instruccions per llançar ciberatacs, extreure dades sensibles, trencar contrasenyes, dissenyar codi maliciós o fins i tot demanar informació relacionada amb la creació d'armes químiques i nuclears.
Quan aquestes mateixes sol·licituds s'expressaven com versos o composicions poètiques, la taxa de respostes insegures es disparava. El treball recull que, de mitjana, escriure el prompt de forma lírica permetia enganyar el sistema al voltant d'un 62% de les ocasions, un percentatge molt per sobre del que s'aconsegueix amb formulacions neutres i directes.
En certs escenaris específics, les xifres són encara més altes: els investigadors parlen que gairebé el 90% de les incitacions poètiques ideades per a l'experiment van aconseguir desencadenar comportaments que els filtres haurien d'haver bloquejat.
En el cas concret de la informació relacionada amb armes nuclears, es van assolir taxes d'èxit situades entre el 40% i el 55%, fet que suposa que gairebé la meitat dels intents formulats en vers acabaven generant contingut que frega, o directament creua, les línies vermelles marcades per les polítiques d'ús.
Com es cola la poesia entre els filtres de la IA
Una de les claus que manegen els autors de l'estudi per explicar per què funciona aquest truc és a la pròpia manera de treballar dels models de llenguatge. Aquestes IA no “raonen” com una persona, sinó que prediuen la paraula següent més probable en funció de la seqüència prèvia i del que han après durant el seu entrenament.
En un text en prosa més o menys convencional, l'estructura és relativament fàcil de modelar: hi ha patrons clars de sintaxi, expressions freqüents i contextos que es repeteixen. No obstant això, en introduir estructura poètica, metàfores i girs poc habituals, el model es mou en un terreny bastant més relliscós.
Els investigadors apunten que, en ser la poesia un format on el sentit pot estar més difuminat i el llenguatge es torna més ambigu i menys predictible, els mecanismes de detecció de continguts perillosos perden precisió. El resultat és que el filtre de seguretat no reconeix amb la mateixa claredat que darrere del poema s'hi amaga una petició perjudicial.
A l'estudi se subratlla que, quan els missatges de caràcter nociu s'expressen en vers en comptes de prosa, els índexs d'èxit dels atacs augmenten de manera notable. Això posa de manifest un buit important en les pràctiques vigents davaluació i en els protocols amb què es valida el compliment de les normes dús.
Un altre element destacable és que aquestes vulnerabilitats apareixen de forma consistent en models de diferents famílies i fabricants, malgrat que cada companyia ha seguit estratègies pròpies per entrenar i alinear els seus sistemes. Per això els autors parlen d'una “vulnerabilitat sistemàtica” més que de fallades puntuals.
Impacte sobre la seguretat: de ciberatacs a armes
Més enllà del truc lingüístic, el que realment encén les alarmes és el tipus de informació que pot arribar a generar la IA si se l'aconsegueix enganyar amb aquests mètodes. L'estudi detalla casos en què, a partir de poemes acuradament dissenyats, els chatbots oferien pautes per organitzar ciberatacs o fer intrusions en sistemes.
Entre els usos problemàtics que s'han observat hi ha indicacions sobre explotació de vulnerabilitats, extracció de dades o desxifrat de contrasenyes, tasques que formen part de l'arsenal típic del cibercrim i de les amenaces avançades que preocupen governs, empreses i organitzacions de tot el món.
També s'han registrat respostes que ajuden a crear o millorar programes maliciosos, una cosa especialment delicada si es té en compte que molts usuaris amb pocs coneixements tècnics podrien recolzar-se en aquestes eines per desenvolupar atacs amb més facilitat.
El pla més sensible, i el que sol centrar l'atenció reguladora a Europa ia nivell internacional, és el de la proliferació d'armes químiques i nuclears. Tot i no arribar a oferir manuals complets, la capacitat d'un sistema d'IA per proporcionar fragments d'informació útil en aquest terreny ja aixeca moltes sospites entre experts en seguretat.
Els autors recalquen que el seu objectiu no és dramatitzar, sinó mostrar que els filtres actuals no són suficients quan s'enfronten a tècniques de manipulació relativament simples, com la reformulació poètica d'ordres perilloses, cosa que podria ser explotada tant per ciberdelinqüents com per actors estatals.
Limitacions dels sistemes actuals i resposta de la indústria
Les principals companyies que desenvolupen models de IA generativa porten temps insistint que integren mecanismes de seguretat multicapa. OpenAI, per exemple, sol destacar l'ús combinat d'algorismes de moderació i d'equips humans dedicats a revisar i filtrar continguts que incitin a l'odi, que siguin explícits o que infringeixin les seves polítiques.
Tot i això, els resultats d'aquest treball suggereixen que, malgrat aquestes salvaguardes, els chatbots segueixen sent vulnerables a formes creatives de formulació de les peticions. Segons els investigadors, la poesia adversarial degrada de manera clara la conducta de rebuig que hauria de mostrar qualsevol model ben alineat amb les normes d'ús.
A les proves, les eines de companyies com OpenAI i Anthropic van mostrar, en comparació, menors probabilitats de saltar-se les seves pròpies barreres; tot i així, no van quedar exemptes del problema. Es va observar la mateixa tendència general que a la resta de plataformes, però amb taxes d'èxit una mica més contingudes.
Preguntades per mitjans internacionals sobre aquestes troballes, firmes com OpenAI, Google, DeepSeek o Meta no van oferir una resposta immediata. És previsible que, a mesura que el debat guanyi atenció pública, les empreses hagin de detallar quines contramesures pensen aplicar.
Des del punt de vista regulatori, aquest tipus d'investigacions encaixen amb les preocupacions que ja es reflecteixen al Reglament d'IA de la Unió Europea, que posa l'accent a la gestió de riscos, la transparència i la responsabilitat dels proveïdors de sistemes avançats. Descobrir nous vectors d'atac, com ara la poesia adversarial, reforça l'argument que calen processos d'avaluació continus i més exigents.
Altres amenaces a l'horitzó: enverinament de dades i manipulació
La poesia adversarial no és, ni de bon tros, l'única via que inquieta la comunitat de ciberseguretat en relació amb la IA generativa. Una bona part de la investigació recent s'està adreçant als riscos lligats a l'entrenament dels models, on entren en joc les enormes bases de dades que es fan servir per ensenyar a aquestes eines a parlar, escriure i raonar.
Estudis independents han mostrat que és possible manipular models de llenguatge a gran escala contaminant una fracció molt petita de les dades d'entrenament: n'hi hauria prou amb 250 documents corruptes per introduir biaixos, portes del darrere o comportaments inesperats, fins i tot en sistemes d'última generació.
El que crida l'atenció és que aquest llindar no sembla augmentar de manera significativa amb la mida del model, cosa que trenca la intuïció que “més gran significa automàticament més robust”. A la pràctica, tant solucions lleugeres com models massius podrien ser vulnerables a aquest tipus d'enverinament de dades.
Si un atac d'aquest tipus passa desapercebut, pot donar lloc a ciberatacs difícils de rastrejar, ja que el propi model es comportaria de forma aparentment normal fins que es complissin certes condicions ocultes en les dades que van servir per corrompre'l.
Combinada amb tècniques com la poesia adversarial, la manipulació de les dades d'entrenament obre un escenari on milions d'usuaris podrien utilitzar eines amb errors latents, sense ser-ne conscients, cosa que suposa un repte majúscul per a les polítiques de seguretat i de governança de la IA.
Tot aquest conjunt de troballes apunta que la seguretat de la intel·ligència artificial generativa no és un problema resolt, sinó un camp en evolució constant on sorgeixen noves formes d'atac a mesura que la tecnologia s'integra a més àmbits de la vida quotidiana, des del treball d'oficina fins a l'administració pública o l'educació.
En aquest context, la “poesia per enganyar la IA” s'ha convertit en un exemple molt gràfic de com un simple canvi d'estil pot deixar en evidència sistemes que, sobre el paper, tenen estrictes protocols de protecció. La investigació d'Icaro Labs i de les universitats italianes reforça la idea que caldrà avaluacions més creatives, proves d'estrès contínues i una col·laboració estreta entre desenvolupadors, experts en ciberseguretat i reguladors perquè els models de llenguatge que ja fem servir cada dia siguin realment capaços de resistir tant els atacs tècnics com els trucs lingüístics més enginyosos.