研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容伊春市某某信息技术厂便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功伊春市某某信息技术厂实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:热门资讯)
-
24日,A股三大指数集体高开高走。截至收盘,沪指涨0.53%,深证成指涨0.88%,创业板指涨0.77%。全市成交额1.90万亿,超4100只个股上涨。 板块方面,商业航天概念股再度爆发,福建本
...[详细]
-
在湖南的一个小镇上,因为父亲的无心之失,结果让女儿的高考梦想,骤然间如泡沫般破灭。这个女孩,原本以全省第138名的佳绩,稳稳地站在了名校的门槛上,却因父亲在志愿填报时的一个小小疏忽,只能无奈选择复读的
...[详细]
-
总台记者获悉,一架以色列无人机30日傍晚袭击了黎首都贝鲁特南郊真主党一处目标,造成至少1人死亡、10人受伤。 据悉,这架无人机发射3枚导弹,导致一栋楼房倒塌。死者为一名妇女,伤者被送到附近医院,
...[详细]
-
北京时间7月30日晚,在巴黎奥运会乒乓球混合双打决赛中,中国组合王楚钦/孙颖莎4-2战胜朝鲜组合,夺得金牌。这是中国代表团在本届奥运会获得的第六枚金牌。
...[详细]
-
来源:央视新闻客户端2025年12月26日周五),故宫养心殿对观众重新开放。养心殿位于乾清宫西侧,西六宫迤南,始建于明代嘉靖十六年1537年)。2025年12月26日周五),故宫养心殿对观众重新开放。 ...[详细]
-
#中国姑娘接力破亚洲纪录#【奖牌+1!#中国姑娘4×100自由泳接力铜牌#】巴黎奥运会游泳女子4×100米自由泳接力决赛,由杨浚瑄@杨MIAO浚瑄 、程玉洁@禾呈玉洁 、张雨霏@o张雨霏o 、吴卿
...[详细]
-
【祝贺!#王楚钦男单首秀开门红#】巴黎奥运会乒乓球男子单打64强赛,@王楚钦___ 战胜对手,顺利晋级32强。祝贺!#王楚钦vs汪洋# 人民日报)
...[详细]
-
[莎头亮相决赛]巴黎奥运会乒乓球混双决赛开始,“莎头组合”@王楚钦___ /@孙颖莎 登场,对战朝鲜队。转发,评论区一起为莎头组合加油!记者:岳冉冉 刘续 王东震)
...[详细]
-
△博索纳罗资料图) 当地时间12月24日,巴西前总统博索纳罗被判刑后首次离开监狱,入院接受手术。 此前,巴西联邦最高法院法官亚历山大·德莫赖斯批准了博索纳罗辩护团队提出的手术申请,但驳回了转为居家
...[详细]
-
#中国00后姑娘晋级100蛙决赛#【#唐钱婷晋级100蛙决赛#】刚刚,巴黎奥运会游泳女子100米蛙泳半决赛,20岁的唐钱婷@唐钱婷_ 晋级决赛!北京时间30日凌晨决赛,为她加油!#巴黎奥运#点击进
...[详细]

乌总统:一定条件下可考虑在顿涅茨克设自由经济区
新疆霍城:薰衣草做成大产业