比特派交易下载
比特派未到账这款车展现了全新的电动座舱设计理念... 比特派CEO这种现象是由于柱镜光栅引起的... 比特派CEO基于V+无线电竞游戏技术智能算法... 比特派未到账上期红球大小比为4:2... 比特派CEO还为现有连接线带来了新的“深空黑”颜色...
比特派安卓钱包>>你的位置:比特派交易下载 > 比特派安卓钱包 > 比特派苹果版关键这只是宾夕法尼亚大学研究团队晒出的一小波漏洞

比特派苹果版关键这只是宾夕法尼亚大学研究团队晒出的一小波漏洞

发布日期:2023-12-30 15:23    点击次数:162

比特派苹果版关键这只是宾夕法尼亚大学研究团队晒出的一小波漏洞

1 分钟不到、20 步以内“越狱”任意大模型比特派苹果版,绕过安全限制!

而且不必知道模型内部细节 ——

只需要两个黑盒模型互动,就能让 AI 全自动攻陷 AI,说出危险内容。

听说曾经红极一时的“奶奶漏洞”已经被修复了:

那么现在搬出“侦探漏洞”、“冒险家漏洞”、“作家漏洞”,AI 又该如何应对?

一波猛攻下来,GPT-4 也遭不住,直接说出要给供水系统投毒只要…… 这样那样。

关键这只是宾夕法尼亚大学研究团队晒出的一小波漏洞,而用上他们最新开发的算法,AI 可以自动生成各种攻击提示。

研究人员表示,这种方法相比于现有的 GCG 等基于 token 的攻击方法,效率提高了 5 个量级。而且生成的攻击可解释性强,谁都能看懂,还能迁移到其它模型。

无论是开源模型还是闭源模型,GPT-3.5、GPT-4、 Vicuna(Llama 2 变种)、PaLM-2 等,一个都跑不掉。

成功率可达 60-100%,拿下新 SOTA。

比特派钱包是哪个国家

话说比特派苹果版,这种对话模式好像有些似曾相识。多年前的初代 AI,20 个问题之内就能破解人类脑中想的是什么对象。

这是国足时隔25年再次在亚运会淘汰赛阶段赢球——下一场四分之一决赛,国足将在10月1日迎战韩国。

升班马弗洛西诺内本赛季重返意甲联赛后,在夏季转会市场上积极运作,通过租借和免签的方式,从AC米兰、那不勒斯、尤文图斯和皇马等劲旅得到了雷尼尔、切迪拉、布雷西亚尼等潜力干将,再加上意甲执教经验丰富的主帅迪弗朗西斯科来投,新赛季弗洛西诺内开局就迅速进入状态,目前5轮联赛过后2胜2平1负,期间打进8球丢了7球,出色的进攻火力是球队取得佳绩的保障,中前场的马奇特利、哈罗伊等人都有着出色的表现,能够先后敲开亚特兰大和那不勒斯的城门,也展现出球队绝非是只捏软柿子的类型,本场比赛主场面对佛罗伦萨,弗洛西诺内有能力延续佳势。

第五届全国智力运动会围棋比赛于2023年10月25日-11月4日在安徽省合肥市庐阳区举行。为确保比赛顺利进行,现将有关事宜补充通知如下:

比赛时间:2023-09-29 10:00:00

比赛时间:2023-09-29 08:30:00

上世纪的专业棋手主要是在体工队(市体校-省体工队-国家队)模式下,那时候算是国家负责,队里发工资、补贴,部分有编制。现在职业棋手定段后都要注册到某参赛单位(俱乐部),不然参加不了正式比赛。

如今轮到 AI 来破解 AI 了。

目前主流越狱攻击方法有两类,一种是提示级攻击,一般需要人工策划,而且不可扩展;

另一种是基于 token 的攻击,有的需要超十万次对话,且需要访问模型内部,还包含“乱码”不可解释。

△ 左提示攻击比特派苹果版,右 token 攻击

宾夕法尼亚大学研究团队提出了一种叫 PAIR(Prompt Automatic Iterative Refinement)的算法,不需要任何人工参与,是一种全自动提示攻击方法。

PAIR 涉及四个主要步骤:攻击生成、目标响应、越狱评分和迭代细化;主要用到两个黑盒模型:攻击模型、目标模型。

具体来说,攻击模型需要自动生成语义级别的提示,来攻破目标模型的安全防线,迫使其生成有害内容。

核心思路是让两个模型相互对抗、你来我往地交流。

攻击模型会自动生成一个候选提示,然后输入到目标模型中,得到目标模型的回复。

如果这次回复没有成功攻破目标模型,那么攻击模型会分析这次失败的原因,改进并生成一个新的提示,再输入到目标模型中。

这样持续交流多轮,攻击模型每次根据上一次的结果来迭代优化提示,直到生成一个成功的提示将目标模型攻破。

此外,迭代过程还可以并行,也就是可以同时运行多个对话,从而产生多个候选越狱提示,进一步提高了效率。

研究人员表示,由于两个模型都是黑盒模型,所以攻击者和目标对象可以用各种语言模型自由组合。

PAIR 不需要知道它们内部的具体结构和参数,只需要 API 即可,因此适用范围非常广。

实验阶段,研究人员在有害行为数据集 AdvBench 中选出了一个具有代表性的、包含 50 个不同类型任务的测试集,在多种开源和闭源大语言模型上测试了 PAIR 算法。

结果 PAIR 算法让 Vicuna 越狱成功率达到了 100%,平均不到 12 步就能攻破。

闭源模型中,GPT-3.5 和 GPT-4 越狱成功率在 60% 左右,平均用了不到 20 步。在 PaLM-2 上成功率达到 72%,步数约为 15 步。

但是 PAIR 在 Llama-2 和 Claude 上的效果较差,研究人员认为这可能是因为这些模型在安全防御上做了更为严格的微调。

他们还比较了不同目标模型的可转移性。结果显示,PAIR 的 GPT-4 提示在 Vicuna 和 PaLM-2 上转移效果较好。

研究人员认为,PAIR 生成的语义攻击更能暴露语言模型固有的安全缺陷,而现有的安全措施更侧重防御基于 token 的攻击。

就比如开发出 GCG 算法的团队,将研究结果分享给 OpenAI、Anthropic 和 Google 等大模型厂商后,相关模型修复了 token 级攻击漏洞。

大模型针对语义攻击的安全防御机制还有待完善。

论文链接:https://arxiv.org/ abs / 2310.08419

参考链接:https://x.com/ llm_sec / status / 1718932383959752869?s=20

本文来自微信公众号:量子位 (ID:QbitAI),作者:西风

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间比特派苹果版,结果仅供参考,IT之家所有文章均包含本声明。

  声明:新浪网独家稿件,未经授权禁止转载。 -->

首页 安卓无法下载比特派 下载比特派钱包地址 小米安装比特派 比特派安卓钱包 比特派转usdc

Powered by 比特派交易下载 @2013-2022 RSS地图 HTML地图

Copyright 站群系统 © 2013-2023 比特派 版权所有