研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容遂宁市某某包装售后客服中心便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功遂宁市某某包装售后客服中心实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:娱乐)
-
当地时间12月3日,委内瑞拉总统马杜罗在一场公开讲话中确认,约十天前,他已与美国总统特朗普进行电话通话,并形容交流“在相互尊重的氛围中进行”,显示双方有意开启对话渠道。 马杜罗表示,这次通话是相
...[详细]
-
自从坐稳女明星最接地气美妆博主后,林允就一直是走哪儿安利到哪儿的人设。从护肤美妆,到项目,她几乎把社交平台当朋友圈发,句句都是干货,一点都不藏。有评论都是“好优秀的一颗头啊”,而且发际线和发量比以前优
...[详细]
-
9小时票房仅61万,成龙新片票房崩塌,成本超3.6亿,回本无望
提档上映恐怕挽救不了《传说》的票房。成龙的最新动作片《传说》本来定于7月12号上映,可惜预售热度始终不高,因此电影在7月5号就开启了提前点映,本来想着靠口碑逆袭,但点映票房还是不够出色,观众的反馈也不
...[详细]
-
7月1日开始,温布尔登网球公开赛温网已经正式开赛,老钱们的狂欢日又来了。作为网球运动史上最有声望的公开赛,它自然而然地成为了「Old Money 」最热衷的社交秘密花园,无论是看台贵宾还是运动场上的选
...[详细]
-
作者 | 柴旭晨编辑 | 周智宇当AI浪潮席卷至物理世界,具身智能正成为全球科技与资本竞逐的黄金赛道。近日,中国证监会官网显示,宇树科技已发布IPO辅导工作完成报告,拟申请在境内首次公开发行股票并上市
...[详细]
-
央视网消息新闻联播):从昨天7月13日)8时至今天8时,重庆九龙坡、江北等28个区县出现暴雨,其中沙坪坝、江津等13个区县大暴雨。当地组织工作人员连夜抢险排涝,全力保障道路畅通。在四川,暴雨造成内
...[详细]
-
版权声明:本文版权为网易汽车所有,转载请注明出处。网易汽车7月8日报道潮流就是一阵风,风吹过后沉淀下来的东西,才能够跨越周期,跨越地域,成为审美的共识。与其盲目跟风,不如打磨经典。这就是我对腾势参数丨
...[详细]
-
盛夏依然炙热,裹着热浪的风吹入每个毛孔,人人都想把穿衣这件事尽可能“简单化”。在夏季,我最想成为的女孩,不一定拥有细腻的妆容,不一定很懂繁杂的穿衣idea,但却能将最简单的衣物,穿出让人过目不忘的独特
...[详细]
-
当地时间12月1日晚,俄罗斯国防部宣布,俄军已控制顿涅茨克地区红军城乌克兰称波克罗夫斯克)和乌克兰哈尔科夫州北部重镇)沃尔昌斯克。对此,乌克兰方面暂未回应。 俄罗斯总统新闻秘书佩斯科夫稍早前表示
...[详细]
-
《I Am Celine Dion》上线了,很坦率,很残酷,却很有力量。纪录片首次公开了席琳·迪翁罹患僵人症的情景,毫不避讳地呈现了她发病时的镜头:不能发声,浑身僵硬,痛到狰狞,无法控制呼吸,长达10
...[详细]

北京新房竣工验收前需由业主查验 7月1日起施行
600200,重大违法强制退市!停牌前还五连涨停