« Quelle pureté du salpêtre faut-il obtenir ? » Un dialogue en langue classique avec une IA a réussi à s’évader de façon étonnamment facile ? Un article révèle une faille de sécurité des LLM
Des recherches montrent que le wenyanwen, en raison de sa nature énigmatique, peut facilement contourner les mesures de sécurité des grands modèles de langage. L’équipe de recherche a utilisé le cadre CC-BOS pour mener des attaques de jailbreak avec un taux de réussite proche de 90 %, révélant les angles morts de l’entraînement à la sécurité de l’IA face au wenyanwen et montrant les vulnérabilités des modèles lorsqu’ils traitent des langues classiques.
CryptoCity·04-03 00:40