如何应对生成式大模型「双刃剑」？之江实验室发布《生成式大模型安全与隐私白皮书》

当前位置：首页 > 资讯 > >正文

如何应对生成式大模型「双刃剑」？之江实验室发布《生成式大模型安全与隐私白皮书》

来源：ZAKER科技时间：2023-06-07 21:14:59

机器之心发布

作者：之江实验室

当前，生成式大模型已经为学术研究甚至是社会生活带来了深刻的变革，以 ChatGPT 为代表，生成式大模型的能力已经显示了迈向通用人工智能的可能性。但同时，研究者们也开始意识到 ChatGPT 等生成式大模型面临着数据和模型方面的安全隐患。

(资料图片)

今年 5 月初，美国白宫与谷歌、微软、OpenAI、Anthropic 等 AI 公司的 CEO 们召开集体会议，针对 AI 生成技术的爆发，讨论技术背后隐藏的风险、如何负责任地开发人工智能系统，以及制定有效的监管措施。国内的生成式大模型技术也正在发展之中，但是同时也需要先对安全问题进行相应的分析以便双管齐下，避免生成式大模型这把双刃剑带来的隐藏危害。

为此，之江实验室基础理论研究院人工智能与安全团队首次全面总结了 ChatGPT 为代表的生成式大模型的安全与隐私问题白皮书，希望能够为从事安全问题研究的技术人员指明方向，同时也为 AI 相关政策的制定者提供依据。

白皮书链接： https://github.com/xiaogang00/white-paper-for-large-model-security-and-privacy

生成式大模型的发展与重要应用

这份白皮书首先总结了 ChatGPT 与 GPT4 等生成式大模型的发展历程，以及其带来的各种令人惊叹的能力和社会变革、社会应用等。作者列举了 ChatGPT 和 GPT4 出现之前的 GPT-1、GPT-2、GPT-3、Google Bert 等模型的特点以及缺点，这些缺点与 ChatGPT 和 GPT4 的强大能力形成了对比；并且，ChatGPT 和 GPT4 之后又涌现了一大批的模型，包括 LLaMa、Alpaca、文心一言、通义千问等，它们的出现使得在人机交互、资源管理、科学研究、内容创作等应用领域出现了新的、强有力的工具。但同时也出现了包括数据安全，使用规范、可信伦理、知识产权以及模型安全方面的问题。

数据安全问题

白皮书提出，数据的安全和隐私是 ChatGPT 及 GPT4 等生成式大模型使用和研发过程中一个极为重要的问题，并从「显式」和「隐式」两个方面对其进行了分析。

在显式的信息泄漏中，首先，ChatGPT 等生成式大模型的训练数据在不经意间被转换成了生成内容，其中就包括了敏感和隐私的个人信息如银行卡账号、病例信息等。此外，ChatGPT 的数据安全和隐私隐患还体现在它对于对话框内容的存储，当用户在和 ChatGPT 互动时，他们的信息会以某些形式被记录和存储下来。

白皮书还提出了之前被大家忽略的隐式信息泄漏问题。首先，ChatGPT 体现出的数据安全和隐私的隐患是它可能通过对对话框数据的收集进行广告推荐，以及收集对话框数据进行推荐或者其他的下游机器学习任务，且 ChatGPT 有时候可能也会生成虚假的信息，以此来诱导用户泄漏一系列的数据。

使用规范问题

在白皮书中，作者提到 ChatGPT 和 GPT4 等生成式大模型强大的理解和生成能力虽然为我们的生活和生产带来了很多的便利，但是同时也存在更多的机会被恶意使用。在没有规范约束的情况下，恶意使用将带来很多的社会性问题。

其一，ChatGPT 和 GPT-4 等模型的强大能力使得某些别有用心的人想要将其作为违法活动的工具。例如用户可以利用 ChatGPT 来编写诈骗短信和钓鱼邮件，甚至开发代码，按需生成恶意软件和勒索软件等，而无需任何编码知识和犯罪经验。

其二，ChatGPT 和 GPT4 等生成式大模型没有把不同地区的法律规范考虑在内，在使用和输出的过程中可能会违反当地法律法规，因此需要一个强而有力的当地监管系统来检测其使用是否与当地法律法规相冲突。

其三，对于一些游离于安全和危险之间的灰色地带，ChatGPT 等生成式大模型的安全能力还没有得到增强。例如 ChatGPT 可能会输出一些诱导性的语句，包括跟抑郁症患者沟通时候可能会输出某些语句导致其产生轻生的心态。

可信伦理问题

ChatGPT 等生成式大模型以问答形态存在于社会层面，但其回复往往存在不可信，或者无法判断其正确的问题，会有似是而非的错误答案，甚至对现有社会伦理产生冲击。

白皮书指出，首先 ChatGPT 等生成式大模型的回复可能是在一本正经地胡说八道，语句通畅貌似合理，但其实完全大相径庭，目前模型还不能提供合理的证据进行可信性的验证。例如，ChatGPT 可能会对一些历史、科学、文化等方面的问题回答错误或者与事实相悖，甚至可能会造成误导或者误解，需要用户有自己的鉴别能力。

ChatGPT 等生成式大模型的伦理问题也在白皮书中被详细讨论。即使 OpenAI 等研发机构已经使用 ChatGPT 本身生成了他们的道德准则，但其中的道德准则是否符合我国国情的基本价值观原则，尚未有定论。作者提出其中存在传播有害意识形态、传播偏见和仇恨、影响政治正确、破坏教育公平、影响国际社会公平、加剧机器取代人类的进程、形成信息茧房阻碍正确价值观形成等问题。

知识产权问题

ChatGPT 等生成式大模型凭借强大的语言处理能力和低廉使用成本给社会方方面面带来便利的同时，也存在侵权的问题，对现存版权法体系带来冲击。例如 ChatGPT 生成的作品可能存在著作权争议：ChatGPT 虽然有着出色的语言处理能力，但是即使生成的作品符合知识产权的全部形式要求，ChatGPT 也无法成为著作权的主体，这是因为著作权主体享有权利的同时也要承担对应的社会责任，而 ChatGPT 只能作为用户强大的辅助生产力工具，它无法自主创作，更不要谈享有权利、履行义务的主体要求。

而且 ChatGPT 等生成式大模型仍无法独立创作，更没有自主思维和独立思考的能力，因而，ChatGPT 根据用户的输入生成的内容不符合作品「独创性」的要求。ChatGPT 用于模型训练的数据来自于互联网，不论多么高级的模型训练算法必然涉及到对现有智力成果的引用、分析、处理等，必然存在对他人合法知识产权的侵犯问题。

模型安全问题

从攻防技术角度来看，ChatGPT 等生成式大模型也存在着模型安全的问题。ChatGPT 本质上是基于深度学习的一个大型生成模型，也面临着人工智能安全方面的诸多威胁，包括模型窃取以及各种攻击引起输出的错误（例如包括对抗攻击、后门攻击、prompt 攻击、数据投毒等）。

例如，模型窃取指的是攻击者依靠有限次数的模型询问，从而得到一个和目标模型的功能和效果一致的本地模型。而 ChatGPT 已经开放了 API 的使用，这更为模型窃取提供了询问入口。又比如，ChatGPT 和 GPT4 作为一个分布式计算的系统，需要处理来自各方的输入数据，并且经过权威机构验证，这些数据将会被持续用于训练。那么 ChatGPT 和 GPT4 也面临着更大的数据投毒风险。攻击者可以在与 ChatGPT 和 GPT4 交互的时候，强行给 ChatGPT 和 GPT4 灌输错误的数据，或者是通过用户反馈的形式去给 ChatGPT 和 GPT4 进行错误的反馈，从而降低 ChatGPT 和 GPT4 的能力，或者给其加入特殊的后门攻击。

安全与隐私建议

最后，白皮书中对于安全和隐私等问题都进行了相应的建议，可作为之后技术研究者们的方向和政策制定者们的参考依据。

在保护隐私建议方面，白皮书提出要在增强原始数据中高敏感隐私信息的辨别和传播限制；在数据收集过程中利用差分隐私等技术进行隐私保护；对于训练数据的存储进行数据加密形式的安全保护；在模型训练过程中使用安全多方计算，同态加密以及联邦学习等技术进行数据隐私和安全保护；建立数据隐私评估和模型保护与安全认证体系，并且保护下游应用的隐私。

在模型安全问题的建议上，白皮书提出对安全与隐私信息的检测模型的训练；让不同的模型适用于不同国家的法律条款；以及针对各种对抗攻击进行防御性训练。

在模型合规问题上，白皮书提出进行可信输出的度量，信任值评价，增加模型输出的版权信息的查询功能。

总结来说，AI 生成式大模型的发展离不开安全，因此其安全问题将作为下一个技术点，值得众多研究者去攻克。而安全也是社会稳定的保障，有关部门需要尽快进行政策的制定。

THE END

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

X 关闭

最近更新

如何应对生成式大模型「双刃剑」？之江实验室发布《生成式大模型安全与隐私白皮书》

2023-06-07 21:14:59

资讯
一天与考生击掌几千次，高考“网红掌门人”揭秘写在手心的鼓励

2023-06-07 21:10:54

资讯
【收评】PVC日内下跌1.40% 机构称昨日PVC期货区间震荡点价货源优势暂不明显天天快报

2023-06-07 21:01:17

资讯
优博讯：公司暂未与英伟达有直接合作|每日动态

2023-06-07 20:51:08

资讯
国网元宝山区供电公司：到元宝山区高考考点开展保电专项检查|环球动态

2023-06-07 20:19:53

资讯
：本田思铭X-NV怎么样及比亚迪全新秦怎么样_重点聚焦

2023-06-07 20:04:55

资讯
浙江第四批集采确认纳入重组人生长激素全球新资讯

2023-06-07 20:13:20

资讯
天奥电子：公司磁力仪产品的研发，主要应用于量子测量领域

2023-06-07 19:54:17

资讯
海外网友热议OMG不敌JDG：希望在theshy事件后，shanji心态没崩溃

2023-06-07 19:46:04

资讯
第二届小孔雀杯少儿声乐展演重点聚焦

2023-06-07 19:39:39

资讯
收评：创业板指跌1.61%续创新低 AI概念股逆势大涨-每日讯息

2023-06-07 18:46:43

资讯
俄罗斯最冷的地方是奥伊米亚康_俄罗斯最冷的地方

2023-06-07 18:49:58

资讯
北京润海福餐饮管理有限公司餐饮具抽检不合格-环球快播

2023-06-07 18:30:14

资讯
全球要闻：2023年法网：德约科维奇与阿尔卡拉斯会师男单半决赛

2023-06-07 18:42:42

资讯
全球球精选！中国茶旅一体化行业发展分析2023

2023-06-07 18:25:54

资讯
提醒！端午节假期首日火车票明日开售世界信息

2023-06-07 18:11:38

资讯
全球快报:别了半命题作文600字

2023-06-07 17:53:58

资讯
重大突破！华为发布首款全栈自主数据库GaussDB：真正属于中国人自己的数据库来了

2023-06-07 17:48:26

资讯
吸收的近义词是什么呢_吸收的近义词

2023-06-07 17:34:09

资讯
23旭越惠诚2优先C票面利率为3.5000%-当前时讯

2023-06-07 17:29:34

资讯
梦见被狗咬到腿出血有什么预兆

2023-06-07 17:01:39

资讯
每日动态!七旬村民被村支书打住院，数月无人管？当地副镇长：正处理

2023-06-07 17:10:37

资讯
女娲造人的主要内容是什么五十字_女娲造人的主要内容是什么-环球焦点

2023-06-07 16:54:14

资讯
伊朗国产高超音速导弹首次亮相世界热消息

2023-06-07 16:44:13

资讯
中信证券：给予金斯瑞生物科技(01548.HK)“买入”评级目标价24.00港元

2023-06-07 16:17:39

资讯
海南省举办高校毕业生专场招聘会

2023-06-07 16:17:51

资讯
全球快播：增长势能延续

2023-06-07 15:54:14

资讯
外卖平台不能沦为“影子店铺”的集散地

2023-06-07 16:00:29

资讯
快看：安徽门诊慢特病医保新增4病种

2023-06-07 15:50:16

资讯
【全球播资讯】斯基拉：穆里尼奥在过去几个小时内收到一份沙特联赛...

2023-06-07 15:46:48

资讯
LOL泽丽最新改动曝光，被动移除Q视为普攻，网友：这没法玩了全球头条

2023-06-07 14:47:44

资讯
环球热资讯！中央气象台：预计6月7日至9日麦收区多晴好天气利于小麦抢收和晾晒

2023-06-07 14:45:57

资讯
崩坏星穹铁道1.1星琼数量介绍

2023-06-07 14:04:53

资讯
三部门联合部署推进打击整治盗采海砂违法犯罪专项行动

2023-06-07 14:07:12

资讯
（五）北京卷

2023-06-07 13:07:01

资讯
印尼财政部长：碳税实施是逐步和谨慎进行的

2023-06-07 13:08:20

资讯
滞困异星黎明LACK-SHIFT种子是什么

2023-06-07 12:40:19

资讯
海关总署：前5个月我国出口机电产品5.57万亿元同比增长9.5%

2023-06-07 12:21:13

资讯
北向资金加仓科创板超百亿，科创50ETF（588000）翻红

2023-06-07 12:17:28

资讯
通行宝：6月6日融资买入307.21万元，融资融券余额3647.2万元

2023-06-07 12:02:49

资讯
塞尔达传说王国之泪近卫之枪在哪里环球快讯

2023-06-07 11:37:26

资讯
约起！厦门共25座公园已开放泡茶点

2023-06-07 11:38:49

资讯
英诺激光：6月6日融资买入115.72万元，融资融券余额9751.39万元_视讯

2023-06-07 11:10:39

资讯
盈峰环境：具体经营数据详见公司定期报告

2023-06-07 10:54:24

资讯
yue网络用语_网络语yue是什么意思女生说yue是什么意思恶心吗环球焦点

2023-06-07 09:50:00

资讯
bk是什么意思网络缩写_uus是什么意思网络语是什么的缩写|天天关注

2023-06-07 09:50:47

资讯
天天最资讯丨网红昏古七简介_昏古七是什么意思是哪里的方言

2023-06-07 09:23:57

资讯
怎样安装打印机到电脑的步骤_怎样安装打印机|当前焦点

2023-06-07 09:02:57

资讯
麻城供电组织迁改大会战解决居民出行难题-最新资讯

2023-06-07 08:16:41

资讯
环球快看点丨接送乘客3D官网在哪下载最新官方下载安装地址

2023-06-07 07:54:21

资讯
及贷上征信吗（及贷逾期怎么办）|今日报

2023-06-07 07:36:09

资讯
tf内存卡和sd内存卡有什么区别_tf内存卡全球观热点

2023-06-07 07:21:37

资讯
【环球新视野】日本4月实际工资下降3% 连续13个月下降

2023-06-07 07:06:38

资讯
浙江益天达网上订购_怎么在网上订购火车票|世界热门

2023-06-07 07:04:07

资讯
北京宣布！公积金提取有大变化

2023-06-07 07:05:23

资讯
世界银行上调中国2023年经济增速预期至5.6%

2023-06-07 06:51:19

资讯
河北机场集团开展“安全生产公众开放日”活动

2023-06-07 06:39:36

资讯
天天快资讯：美股异动 | 美国制商银行涨超4% 获高管增持1万股普通股股份

2023-06-07 06:25:34

资讯
美参议员致信扎克伯格寻求有关大型语言模型LLaMA泄露的信息

2023-06-07 05:58:07

资讯
安德烈·波尔琪

2023-06-07 05:47:23

资讯
广东宏远正式集结！三大主力基本完成续约，曾繁日或被杜锋放弃_天天关注

2023-06-07 05:37:04

资讯
早期肺结核会自愈吗_早期肺结核会传染吗

2023-06-07 05:28:21

资讯
焦点讯息：年报观察 | 许家印救生艇恒大物业迟来的年报

2023-06-07 05:24:25

资讯
洞穴奇案的十四种判决完整归纳_洞穴奇案电子版急求环球热讯

2023-06-07 04:48:08

资讯
Coinbase(COIN.US)盘前大跌超12%_视讯

2023-06-07 04:44:21

资讯
网传影片激怒韩粉　侯：永远团结勿断章取义

2023-06-07 04:37:08

资讯
AKGk702_AKGK702 65th-微动态

2023-06-07 04:28:59

资讯
最高人民法院关于充分发挥司法职能作用助力中小微企业发展的指导意见(对于最高人民法院关于充分发挥司法职能作用助力中小微企业发展的指导意见简单介绍)-当前资讯

2023-06-07 03:59:15

资讯
问记者丨藏羚羊迁徙途中，走散的小羊去哪了？

2023-06-07 03:51:50

资讯
小马驹童话动画片_小马驹童话天天时快讯

2023-06-07 03:46:12

资讯
胶原肽纤维是什么?

2023-06-07 03:25:04

资讯
推荐几款轿车，优先考虑德系和自主

2023-06-07 03:03:33

资讯
【20230606收评】又到年线下，机会又大了天天时快讯

2023-06-07 02:45:41

资讯
黄牛卖分卖出“天坑”！男子驾驶证被扣151分还敢开车上路_全球观热点

2023-06-07 02:19:24

资讯
老头儿油爆虾第一家（老头儿）

2023-06-07 02:22:51

资讯
环球时讯：南昌十二中学校_南昌十二中

2023-06-07 02:09:32

资讯
全球快消息！砺兵野外！武警防化兵开展多课目演练

2023-06-07 01:25:38

资讯
全球热点！香港3名女童死亡母亲疑是凶手已被抓捕

2023-06-07 01:14:00

资讯
复合气瓶检测最新国家标准_复合气瓶检测|天天简讯

2023-06-07 00:32:41

资讯
能去火的水果有哪些_柚子是上火还是降火世界观速讯

2023-06-06 23:51:54

资讯
当前动态:国内商品期货夜盘涨跌互现玻璃、豆一涨超1%

2023-06-06 23:19:04

资讯
oppo手机屏幕坏了如何导出照片_ldquo OPPO rdquo 手机屏幕碎了怎么才能把照片导出来|天天动态

2023-06-06 22:52:06

资讯
环球讯息：girls on fire吉他谱_girls on fire

2023-06-06 22:19:17

资讯
2008北京奥运会会徽图片_2008北京奥运会会徽

2023-06-06 21:48:19

资讯
考南京航空航天大学有什么要求吗需多少名

2023-06-06 21:28:28

资讯
环球微动态丨聘房屋所有权纠纷律师法律服务收费多少

2023-06-06 21:18:13

资讯
重庆电力行业成立厂网保供联盟合力攻坚迎峰度夏电力保供世界通讯

2023-06-06 21:00:09

资讯
微信网名男生有内涵的大气有内涵好听的男生微信网名-全球报道

2023-06-06 20:43:08

资讯
每日看点！小提琴一般学多久才可以学会_小提琴学习

2023-06-06 19:52:24

资讯
每日视讯：曾子曰吾日三省吾身为人谋而不忠乎赏析_曾子曰 ldquo 吾日三省吾身为人谋而不忠乎与朋友交而不信乎传

2023-06-06 19:52:52

资讯
诺思兰德拟定增募资不超2.5亿首季及去年前年均亏损|当前观点

2023-06-06 19:40:10

资讯
【世界时快讯】12岁的侄女生日送什么好_十二岁的嫩侄女

2023-06-06 19:37:01

资讯
世界即时：股市剑客：大盘调整，沪指失守3200点，创业板指再创年内新低

2023-06-06 19:14:34

资讯
吃苦后成功的名人事例有哪些

2023-06-06 19:04:41

资讯
广州低保标准提高至每人每月1238元

2023-06-06 18:27:07

资讯
生牦牛肉怎么做好吃_牦牛肉怎么做好吃|世界简讯

2023-06-06 18:20:30

资讯
实力营业部现身龙虎榜，力鼎光电换手率达69.08%（06-06）_天天播报

2023-06-06 18:04:30

资讯
秋田微：截至目前公司未与合力泰、好上好建立合作关系

2023-06-06 17:47:06

资讯
微动态丨平远县气象台发布雷雨大风黄色预警【III级/较重】【2023-06-06】

2023-06-06 17:35:11

资讯
高考实用贴·突发状况篇丨见招拆招，莫要慌张_天天动态

2023-06-06 17:30:43

资讯

如何应对生成式大模型「双刃剑」？之江实验室发布《生成式大模型安全与隐私白皮书》

推荐内容

最近更新